End of training

Browse files

Files changed (5) hide show

README.md +5 -3
all_results.json +11 -11
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +581 -121

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 library_name: transformers
 base_model: microsoft/wavlm-base
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # wavlm-salt-eng
-This model is a fine-tuned version of [microsoft/wavlm-base](https://huggingface.co/microsoft/wavlm-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2243
-- Wer: 0.2204
 ## Model description

 library_name: transformers
 base_model: microsoft/wavlm-base
 tags:
+- automatic-speech-recognition
+- Sunbird/salt
 - generated_from_trainer
 metrics:
 - wer
 # wavlm-salt-eng
+This model is a fine-tuned version of [microsoft/wavlm-base](https://huggingface.co/microsoft/wavlm-base) on the SUNBIRD/SALT - MULTISPEAKER-ENG dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2244
+- Wer: 0.2118
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 33.22296173044925,
-    "eval_loss": 0.20475824177265167,
-    "eval_runtime": 5.1372,
     "eval_samples": 101,
-    "eval_samples_per_second": 19.66,
-    "eval_steps_per_second": 2.531,
-    "eval_wer": 0.23010752688172043,
-    "total_flos": 6.831383494195675e+18,
-    "train_loss": 0.2052539484024048,
-    "train_runtime": 9327.6943,
     "train_samples": 4804,
-    "train_samples_per_second": 17.153,
-    "train_steps_per_second": 1.072
 }

 {
+    "epoch": 99.66888519134775,
+    "eval_loss": 0.22443878650665283,
+    "eval_runtime": 5.3058,
     "eval_samples": 101,
+    "eval_samples_per_second": 19.036,
+    "eval_steps_per_second": 2.45,
+    "eval_wer": 0.2118279569892473,
+    "total_flos": 2.0486046325976072e+19,
+    "train_loss": 0.08741244434913,
+    "train_runtime": 29833.4209,
     "train_samples": 4804,
+    "train_samples_per_second": 16.089,
+    "train_steps_per_second": 1.006
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 33.22296173044925,
-    "eval_loss": 0.20475824177265167,
-    "eval_runtime": 5.1372,
     "eval_samples": 101,
-    "eval_samples_per_second": 19.66,
-    "eval_steps_per_second": 2.531,
-    "eval_wer": 0.23010752688172043
 }

 {
+    "epoch": 99.66888519134775,
+    "eval_loss": 0.22443878650665283,
+    "eval_runtime": 5.3058,
     "eval_samples": 101,
+    "eval_samples_per_second": 19.036,
+    "eval_steps_per_second": 2.45,
+    "eval_wer": 0.2118279569892473
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 33.22296173044925,
-    "total_flos": 6.831383494195675e+18,
-    "train_loss": 0.2052539484024048,
-    "train_runtime": 9327.6943,
     "train_samples": 4804,
-    "train_samples_per_second": 17.153,
-    "train_steps_per_second": 1.072
 }

 {
+    "epoch": 99.66888519134775,
+    "total_flos": 2.0486046325976072e+19,
+    "train_loss": 0.08741244434913,
+    "train_runtime": 29833.4209,
     "train_samples": 4804,
+    "train_samples_per_second": 16.089,
+    "train_steps_per_second": 1.006
 }

trainer_state.json CHANGED Viewed

@@ -2,257 +2,717 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 33.22296173044925,
   "eval_steps": 1000,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.6622296173044924,
-      "grad_norm": 2.9154744148254395,
       "learning_rate": 0.00029939999999999996,
-      "loss": 2.5693,
       "step": 500
     },
     {
       "epoch": 3.32279534109817,
-      "grad_norm": 2.086198091506958,
-      "learning_rate": 0.00028424210526315787,
-      "loss": 0.3806,
       "step": 1000
     },
     {
       "epoch": 3.32279534109817,
-      "eval_loss": 0.3095531761646271,
-      "eval_runtime": 5.0217,
-      "eval_samples_per_second": 20.113,
-      "eval_steps_per_second": 2.589,
-      "eval_wer": 0.3956989247311828,
       "step": 1000
     },
     {
       "epoch": 4.985024958402662,
-      "grad_norm": 3.3510117530822754,
-      "learning_rate": 0.00026845263157894737,
-      "loss": 0.2254,
       "step": 1500
     },
     {
       "epoch": 6.64559068219634,
-      "grad_norm": 2.1008408069610596,
-      "learning_rate": 0.0002526631578947368,
-      "loss": 0.156,
       "step": 2000
     },
     {
       "epoch": 6.64559068219634,
-      "eval_loss": 0.27666544914245605,
-      "eval_runtime": 5.0002,
-      "eval_samples_per_second": 20.199,
-      "eval_steps_per_second": 2.6,
-      "eval_wer": 0.3247311827956989,
       "step": 2000
     },
     {
       "epoch": 8.306156405990016,
-      "grad_norm": 2.587332010269165,
-      "learning_rate": 0.00023687368421052628,
-      "loss": 0.1241,
       "step": 2500
     },
     {
       "epoch": 9.96838602329451,
-      "grad_norm": 0.9522386789321899,
-      "learning_rate": 0.00022108421052631578,
-      "loss": 0.1015,
       "step": 3000
     },
     {
       "epoch": 9.96838602329451,
-      "eval_loss": 0.28304827213287354,
-      "eval_runtime": 4.972,
-      "eval_samples_per_second": 20.314,
-      "eval_steps_per_second": 2.615,
-      "eval_wer": 0.2838709677419355,
       "step": 3000
     },
     {
       "epoch": 11.628951747088186,
-      "grad_norm": 1.9689347743988037,
-      "learning_rate": 0.00020529473684210525,
-      "loss": 0.0853,
       "step": 3500
     },
     {
       "epoch": 13.289517470881863,
-      "grad_norm": 1.2812440395355225,
-      "learning_rate": 0.0001895052631578947,
-      "loss": 0.0755,
       "step": 4000
     },
     {
       "epoch": 13.289517470881863,
-      "eval_loss": 0.27407756447792053,
-      "eval_runtime": 4.9737,
-      "eval_samples_per_second": 20.307,
-      "eval_steps_per_second": 2.614,
-      "eval_wer": 0.289247311827957,
       "step": 4000
     },
     {
       "epoch": 14.951747088186355,
-      "grad_norm": 0.7250840067863464,
-      "learning_rate": 0.0001737157894736842,
-      "loss": 0.0641,
       "step": 4500
     },
     {
       "epoch": 16.612312811980033,
-      "grad_norm": 0.5321822166442871,
-      "learning_rate": 0.00015792631578947366,
-      "loss": 0.0567,
       "step": 5000
     },
     {
       "epoch": 16.612312811980033,
-      "eval_loss": 0.20905862748622894,
-      "eval_runtime": 4.9679,
-      "eval_samples_per_second": 20.331,
-      "eval_steps_per_second": 2.617,
-      "eval_wer": 0.24946236559139784,
       "step": 5000
     },
     {
       "epoch": 18.27287853577371,
-      "grad_norm": 0.936040997505188,
-      "learning_rate": 0.00014213684210526316,
-      "loss": 0.0463,
       "step": 5500
     },
     {
       "epoch": 19.935108153078204,
-      "grad_norm": 1.0212537050247192,
-      "learning_rate": 0.00012634736842105263,
-      "loss": 0.0386,
       "step": 6000
     },
     {
       "epoch": 19.935108153078204,
-      "eval_loss": 0.22282364964485168,
-      "eval_runtime": 4.9552,
-      "eval_samples_per_second": 20.382,
-      "eval_steps_per_second": 2.623,
-      "eval_wer": 0.24731182795698925,
       "step": 6000
     },
     {
       "epoch": 21.59567387687188,
-      "grad_norm": 0.5801821947097778,
-      "learning_rate": 0.0001105578947368421,
-      "loss": 0.0346,
       "step": 6500
     },
     {
       "epoch": 23.25623960066556,
-      "grad_norm": 1.4400817155838013,
-      "learning_rate": 9.476842105263157e-05,
-      "loss": 0.0316,
       "step": 7000
     },
     {
       "epoch": 23.25623960066556,
-      "eval_loss": 0.22444939613342285,
-      "eval_runtime": 5.0325,
-      "eval_samples_per_second": 20.069,
-      "eval_steps_per_second": 2.583,
-      "eval_wer": 0.26881720430107525,
       "step": 7000
     },
     {
       "epoch": 24.91846921797005,
-      "grad_norm": 1.2605141401290894,
-      "learning_rate": 7.897894736842106e-05,
-      "loss": 0.0262,
       "step": 7500
     },
     {
       "epoch": 26.579034941763727,
-      "grad_norm": 0.4129526615142822,
-      "learning_rate": 6.318947368421052e-05,
-      "loss": 0.0233,
       "step": 8000
     },
     {
       "epoch": 26.579034941763727,
-      "eval_loss": 0.21599678695201874,
-      "eval_runtime": 4.9966,
-      "eval_samples_per_second": 20.214,
-      "eval_steps_per_second": 2.602,
-      "eval_wer": 0.23010752688172043,
       "step": 8000
     },
     {
       "epoch": 28.239600665557404,
-      "grad_norm": 0.13726775348186493,
-      "learning_rate": 4.7399999999999993e-05,
-      "loss": 0.0187,
       "step": 8500
     },
     {
       "epoch": 29.901830282861898,
-      "grad_norm": 0.28249457478523254,
-      "learning_rate": 3.161052631578947e-05,
-      "loss": 0.0186,
       "step": 9000
     },
     {
       "epoch": 29.901830282861898,
-      "eval_loss": 0.2085915356874466,
-      "eval_runtime": 4.9628,
-      "eval_samples_per_second": 20.351,
-      "eval_steps_per_second": 2.619,
-      "eval_wer": 0.23225806451612904,
       "step": 9000
     },
     {
       "epoch": 31.562396006655575,
-      "grad_norm": 0.8073873519897461,
-      "learning_rate": 1.5821052631578945e-05,
-      "loss": 0.0151,
       "step": 9500
     },
     {
       "epoch": 33.22296173044925,
-      "grad_norm": 0.1773974597454071,
-      "learning_rate": 3.157894736842105e-08,
-      "loss": 0.0137,
       "step": 10000
     },
     {
       "epoch": 33.22296173044925,
-      "eval_loss": 0.20346209406852722,
-      "eval_runtime": 4.9853,
-      "eval_samples_per_second": 20.259,
-      "eval_steps_per_second": 2.608,
-      "eval_wer": 0.23118279569892472,
       "step": 10000
     },
     {
-      "epoch": 33.22296173044925,
-      "step": 10000,
-      "total_flos": 6.831383494195675e+18,
-      "train_loss": 0.2052539484024048,
-      "train_runtime": 9327.6943,
-      "train_samples_per_second": 17.153,
-      "train_steps_per_second": 1.072
     }
   ],
   "logging_steps": 500,
-  "max_steps": 10000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 34,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -266,7 +726,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.831383494195675e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 99.66888519134775,
   "eval_steps": 1000,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.6622296173044924,
+      "grad_norm": 3.129899024963379,
       "learning_rate": 0.00029939999999999996,
+      "loss": 2.5636,
       "step": 500
     },
     {
       "epoch": 3.32279534109817,
+      "grad_norm": 1.6870653629302979,
+      "learning_rate": 0.0002949254237288135,
+      "loss": 0.3803,
       "step": 1000
     },
     {
       "epoch": 3.32279534109817,
+      "eval_loss": 0.3107321560382843,
+      "eval_runtime": 5.3302,
+      "eval_samples_per_second": 18.949,
+      "eval_steps_per_second": 2.439,
+      "eval_wer": 0.36236559139784946,
       "step": 1000
     },
     {
       "epoch": 4.985024958402662,
+      "grad_norm": 4.024764537811279,
+      "learning_rate": 0.00028984067796610164,
+      "loss": 0.2315,
       "step": 1500
     },
     {
       "epoch": 6.64559068219634,
+      "grad_norm": 2.152501106262207,
+      "learning_rate": 0.0002847559322033898,
+      "loss": 0.1663,
       "step": 2000
     },
     {
       "epoch": 6.64559068219634,
+      "eval_loss": 0.2739505469799042,
+      "eval_runtime": 5.2893,
+      "eval_samples_per_second": 19.095,
+      "eval_steps_per_second": 2.458,
+      "eval_wer": 0.3096774193548387,
       "step": 2000
     },
     {
       "epoch": 8.306156405990016,
+      "grad_norm": 1.6033236980438232,
+      "learning_rate": 0.00027967118644067795,
+      "loss": 0.1381,
       "step": 2500
     },
     {
       "epoch": 9.96838602329451,
+      "grad_norm": 1.2841393947601318,
+      "learning_rate": 0.00027458644067796607,
+      "loss": 0.1206,
       "step": 3000
     },
     {
       "epoch": 9.96838602329451,
+      "eval_loss": 0.24860869348049164,
+      "eval_runtime": 5.3415,
+      "eval_samples_per_second": 18.909,
+      "eval_steps_per_second": 2.434,
+      "eval_wer": 0.2903225806451613,
       "step": 3000
     },
     {
       "epoch": 11.628951747088186,
+      "grad_norm": 1.436146855354309,
+      "learning_rate": 0.0002695016949152542,
+      "loss": 0.1053,
       "step": 3500
     },
     {
       "epoch": 13.289517470881863,
+      "grad_norm": 0.8757719397544861,
+      "learning_rate": 0.0002644169491525423,
+      "loss": 0.0938,
       "step": 4000
     },
     {
       "epoch": 13.289517470881863,
+      "eval_loss": 0.25879770517349243,
+      "eval_runtime": 5.2643,
+      "eval_samples_per_second": 19.186,
+      "eval_steps_per_second": 2.469,
+      "eval_wer": 0.28279569892473116,
       "step": 4000
     },
     {
       "epoch": 14.951747088186355,
+      "grad_norm": 0.9832671284675598,
+      "learning_rate": 0.0002593322033898305,
+      "loss": 0.0872,
       "step": 4500
     },
     {
       "epoch": 16.612312811980033,
+      "grad_norm": 0.9009350538253784,
+      "learning_rate": 0.00025424745762711863,
+      "loss": 0.0816,
       "step": 5000
     },
     {
       "epoch": 16.612312811980033,
+      "eval_loss": 0.27693644165992737,
+      "eval_runtime": 5.2922,
+      "eval_samples_per_second": 19.085,
+      "eval_steps_per_second": 2.456,
+      "eval_wer": 0.278494623655914,
       "step": 5000
     },
     {
       "epoch": 18.27287853577371,
+      "grad_norm": 1.4376908540725708,
+      "learning_rate": 0.00024916271186440676,
+      "loss": 0.0756,
       "step": 5500
     },
     {
       "epoch": 19.935108153078204,
+      "grad_norm": 0.4128202795982361,
+      "learning_rate": 0.0002440779661016949,
+      "loss": 0.0689,
       "step": 6000
     },
     {
       "epoch": 19.935108153078204,
+      "eval_loss": 0.24573881924152374,
+      "eval_runtime": 5.2488,
+      "eval_samples_per_second": 19.243,
+      "eval_steps_per_second": 2.477,
+      "eval_wer": 0.28817204301075267,
       "step": 6000
     },
     {
       "epoch": 21.59567387687188,
+      "grad_norm": 0.9727014899253845,
+      "learning_rate": 0.00023899322033898301,
+      "loss": 0.0634,
       "step": 6500
     },
     {
       "epoch": 23.25623960066556,
+      "grad_norm": 0.9723252058029175,
+      "learning_rate": 0.00023390847457627117,
+      "loss": 0.0642,
       "step": 7000
     },
     {
       "epoch": 23.25623960066556,
+      "eval_loss": 0.26387491822242737,
+      "eval_runtime": 5.2852,
+      "eval_samples_per_second": 19.11,
+      "eval_steps_per_second": 2.46,
+      "eval_wer": 0.2913978494623656,
       "step": 7000
     },
     {
       "epoch": 24.91846921797005,
+      "grad_norm": 0.8104386329650879,
+      "learning_rate": 0.00022882372881355932,
+      "loss": 0.0586,
       "step": 7500
     },
     {
       "epoch": 26.579034941763727,
+      "grad_norm": 0.31280040740966797,
+      "learning_rate": 0.00022373898305084742,
+      "loss": 0.0566,
       "step": 8000
     },
     {
       "epoch": 26.579034941763727,
+      "eval_loss": 0.2954213619232178,
+      "eval_runtime": 5.2555,
+      "eval_samples_per_second": 19.218,
+      "eval_steps_per_second": 2.474,
+      "eval_wer": 0.28279569892473116,
       "step": 8000
     },
     {
       "epoch": 28.239600665557404,
+      "grad_norm": 0.31530410051345825,
+      "learning_rate": 0.00021865423728813558,
+      "loss": 0.0509,
       "step": 8500
     },
     {
       "epoch": 29.901830282861898,
+      "grad_norm": 0.7447624802589417,
+      "learning_rate": 0.0002135694915254237,
+      "loss": 0.049,
       "step": 9000
     },
     {
       "epoch": 29.901830282861898,
+      "eval_loss": 0.31719881296157837,
+      "eval_runtime": 5.2417,
+      "eval_samples_per_second": 19.268,
+      "eval_steps_per_second": 2.48,
+      "eval_wer": 0.2763440860215054,
       "step": 9000
     },
     {
       "epoch": 31.562396006655575,
+      "grad_norm": 0.7232189774513245,
+      "learning_rate": 0.00020848474576271186,
+      "loss": 0.0464,
       "step": 9500
     },
     {
       "epoch": 33.22296173044925,
+      "grad_norm": 0.7363786101341248,
+      "learning_rate": 0.00020339999999999998,
+      "loss": 0.0454,
       "step": 10000
     },
     {
       "epoch": 33.22296173044925,
+      "eval_loss": 0.31861352920532227,
+      "eval_runtime": 5.2622,
+      "eval_samples_per_second": 19.194,
+      "eval_steps_per_second": 2.47,
+      "eval_wer": 0.28279569892473116,
       "step": 10000
     },
     {
+      "epoch": 34.88519134775375,
+      "grad_norm": 1.2368154525756836,
+      "learning_rate": 0.0001983152542372881,
+      "loss": 0.0419,
+      "step": 10500
+    },
+    {
+      "epoch": 36.54575707154742,
+      "grad_norm": 0.20310941338539124,
+      "learning_rate": 0.00019323050847457626,
+      "loss": 0.0395,
+      "step": 11000
+    },
+    {
+      "epoch": 36.54575707154742,
+      "eval_loss": 0.27824845910072327,
+      "eval_runtime": 5.2266,
+      "eval_samples_per_second": 19.324,
+      "eval_steps_per_second": 2.487,
+      "eval_wer": 0.2817204301075269,
+      "step": 11000
+    },
+    {
+      "epoch": 38.2063227953411,
+      "grad_norm": 0.7990397214889526,
+      "learning_rate": 0.0001881457627118644,
+      "loss": 0.0379,
+      "step": 11500
+    },
+    {
+      "epoch": 39.86855241264559,
+      "grad_norm": 1.0379022359848022,
+      "learning_rate": 0.00018306101694915252,
+      "loss": 0.0389,
+      "step": 12000
+    },
+    {
+      "epoch": 39.86855241264559,
+      "eval_loss": 0.28572770953178406,
+      "eval_runtime": 5.2471,
+      "eval_samples_per_second": 19.249,
+      "eval_steps_per_second": 2.478,
+      "eval_wer": 0.28279569892473116,
+      "step": 12000
+    },
+    {
+      "epoch": 41.529118136439266,
+      "grad_norm": 0.42599430680274963,
+      "learning_rate": 0.00017797627118644067,
+      "loss": 0.0338,
+      "step": 12500
+    },
+    {
+      "epoch": 43.18968386023295,
+      "grad_norm": 0.8438450694084167,
+      "learning_rate": 0.0001728915254237288,
+      "loss": 0.0321,
+      "step": 13000
+    },
+    {
+      "epoch": 43.18968386023295,
+      "eval_loss": 0.26923489570617676,
+      "eval_runtime": 5.1894,
+      "eval_samples_per_second": 19.463,
+      "eval_steps_per_second": 2.505,
+      "eval_wer": 0.25268817204301075,
+      "step": 13000
+    },
+    {
+      "epoch": 44.85191347753744,
+      "grad_norm": 0.27244409918785095,
+      "learning_rate": 0.00016780677966101695,
+      "loss": 0.0307,
+      "step": 13500
+    },
+    {
+      "epoch": 46.51247920133112,
+      "grad_norm": 0.5336557626724243,
+      "learning_rate": 0.00016272203389830505,
+      "loss": 0.0282,
+      "step": 14000
+    },
+    {
+      "epoch": 46.51247920133112,
+      "eval_loss": 0.2570391595363617,
+      "eval_runtime": 5.2068,
+      "eval_samples_per_second": 19.398,
+      "eval_steps_per_second": 2.497,
+      "eval_wer": 0.25591397849462366,
+      "step": 14000
+    },
+    {
+      "epoch": 48.17304492512479,
+      "grad_norm": 0.5201185941696167,
+      "learning_rate": 0.0001576372881355932,
+      "loss": 0.0276,
+      "step": 14500
+    },
+    {
+      "epoch": 49.83527454242928,
+      "grad_norm": 0.42062297463417053,
+      "learning_rate": 0.00015255254237288136,
+      "loss": 0.0269,
+      "step": 15000
+    },
+    {
+      "epoch": 49.83527454242928,
+      "eval_loss": 0.24461327493190765,
+      "eval_runtime": 5.222,
+      "eval_samples_per_second": 19.341,
+      "eval_steps_per_second": 2.489,
+      "eval_wer": 0.2623655913978495,
+      "step": 15000
+    },
+    {
+      "epoch": 51.49584026622296,
+      "grad_norm": 1.2455600500106812,
+      "learning_rate": 0.0001474677966101695,
+      "loss": 0.0253,
+      "step": 15500
+    },
+    {
+      "epoch": 53.15640599001664,
+      "grad_norm": 0.5616517066955566,
+      "learning_rate": 0.00014238305084745761,
+      "loss": 0.0233,
+      "step": 16000
+    },
+    {
+      "epoch": 53.15640599001664,
+      "eval_loss": 0.23834320902824402,
+      "eval_runtime": 5.2763,
+      "eval_samples_per_second": 19.142,
+      "eval_steps_per_second": 2.464,
+      "eval_wer": 0.24731182795698925,
+      "step": 16000
+    },
+    {
+      "epoch": 54.818635607321134,
+      "grad_norm": 0.6374333500862122,
+      "learning_rate": 0.00013729830508474577,
+      "loss": 0.023,
+      "step": 16500
+    },
+    {
+      "epoch": 56.47920133111481,
+      "grad_norm": 0.599651575088501,
+      "learning_rate": 0.0001322135593220339,
+      "loss": 0.0224,
+      "step": 17000
+    },
+    {
+      "epoch": 56.47920133111481,
+      "eval_loss": 0.28050878643989563,
+      "eval_runtime": 5.2647,
+      "eval_samples_per_second": 19.185,
+      "eval_steps_per_second": 2.469,
+      "eval_wer": 0.24731182795698925,
+      "step": 17000
+    },
+    {
+      "epoch": 58.13976705490849,
+      "grad_norm": 0.5658329129219055,
+      "learning_rate": 0.00012712881355932202,
+      "loss": 0.0202,
+      "step": 17500
+    },
+    {
+      "epoch": 59.80199667221298,
+      "grad_norm": 0.1811748892068863,
+      "learning_rate": 0.00012204406779661016,
+      "loss": 0.0198,
+      "step": 18000
+    },
+    {
+      "epoch": 59.80199667221298,
+      "eval_loss": 0.25546789169311523,
+      "eval_runtime": 5.2627,
+      "eval_samples_per_second": 19.192,
+      "eval_steps_per_second": 2.47,
+      "eval_wer": 0.25161290322580643,
+      "step": 18000
+    },
+    {
+      "epoch": 61.46256239600665,
+      "grad_norm": 0.3274936378002167,
+      "learning_rate": 0.00011695932203389829,
+      "loss": 0.0179,
+      "step": 18500
+    },
+    {
+      "epoch": 63.123128119800334,
+      "grad_norm": 0.4713875353336334,
+      "learning_rate": 0.00011187457627118644,
+      "loss": 0.0159,
+      "step": 19000
+    },
+    {
+      "epoch": 63.123128119800334,
+      "eval_loss": 0.20965830981731415,
+      "eval_runtime": 5.2591,
+      "eval_samples_per_second": 19.205,
+      "eval_steps_per_second": 2.472,
+      "eval_wer": 0.24086021505376345,
+      "step": 19000
+    },
+    {
+      "epoch": 64.78535773710483,
+      "grad_norm": 0.07249698787927628,
+      "learning_rate": 0.00010678983050847457,
+      "loss": 0.0162,
+      "step": 19500
+    },
+    {
+      "epoch": 66.4459234608985,
+      "grad_norm": 0.0907130241394043,
+      "learning_rate": 0.00010170508474576271,
+      "loss": 0.015,
+      "step": 20000
+    },
+    {
+      "epoch": 66.4459234608985,
+      "eval_loss": 0.23673121631145477,
+      "eval_runtime": 5.2393,
+      "eval_samples_per_second": 19.277,
+      "eval_steps_per_second": 2.481,
+      "eval_wer": 0.25053763440860216,
+      "step": 20000
+    },
+    {
+      "epoch": 68.10648918469218,
+      "grad_norm": 0.05233411118388176,
+      "learning_rate": 9.662033898305084e-05,
+      "loss": 0.0144,
+      "step": 20500
+    },
+    {
+      "epoch": 69.76871880199667,
+      "grad_norm": 0.10925977677106857,
+      "learning_rate": 9.153559322033896e-05,
+      "loss": 0.015,
+      "step": 21000
+    },
+    {
+      "epoch": 69.76871880199667,
+      "eval_loss": 0.24856378138065338,
+      "eval_runtime": 5.3437,
+      "eval_samples_per_second": 18.901,
+      "eval_steps_per_second": 2.433,
+      "eval_wer": 0.25268817204301075,
+      "step": 21000
+    },
+    {
+      "epoch": 71.42928452579035,
+      "grad_norm": 0.267115980386734,
+      "learning_rate": 8.64508474576271e-05,
+      "loss": 0.0117,
+      "step": 21500
+    },
+    {
+      "epoch": 73.08985024958403,
+      "grad_norm": 0.4500684440135956,
+      "learning_rate": 8.136610169491526e-05,
+      "loss": 0.0122,
+      "step": 22000
+    },
+    {
+      "epoch": 73.08985024958403,
+      "eval_loss": 0.24751359224319458,
+      "eval_runtime": 5.2943,
+      "eval_samples_per_second": 19.077,
+      "eval_steps_per_second": 2.455,
+      "eval_wer": 0.25268817204301075,
+      "step": 22000
+    },
+    {
+      "epoch": 74.75207986688852,
+      "grad_norm": 1.1715344190597534,
+      "learning_rate": 7.628135593220339e-05,
+      "loss": 0.0119,
+      "step": 22500
+    },
+    {
+      "epoch": 76.4126455906822,
+      "grad_norm": 0.22268928587436676,
+      "learning_rate": 7.119661016949153e-05,
+      "loss": 0.0104,
+      "step": 23000
+    },
+    {
+      "epoch": 76.4126455906822,
+      "eval_loss": 0.23766544461250305,
+      "eval_runtime": 5.275,
+      "eval_samples_per_second": 19.147,
+      "eval_steps_per_second": 2.464,
+      "eval_wer": 0.23440860215053763,
+      "step": 23000
+    },
+    {
+      "epoch": 78.07321131447587,
+      "grad_norm": 0.3640448749065399,
+      "learning_rate": 6.611186440677965e-05,
+      "loss": 0.0097,
+      "step": 23500
+    },
+    {
+      "epoch": 79.73544093178036,
+      "grad_norm": 0.13920682668685913,
+      "learning_rate": 6.102711864406779e-05,
+      "loss": 0.008,
+      "step": 24000
+    },
+    {
+      "epoch": 79.73544093178036,
+      "eval_loss": 0.23628441989421844,
+      "eval_runtime": 5.3789,
+      "eval_samples_per_second": 18.777,
+      "eval_steps_per_second": 2.417,
+      "eval_wer": 0.24408602150537634,
+      "step": 24000
+    },
+    {
+      "epoch": 81.39600665557404,
+      "grad_norm": 0.051646001636981964,
+      "learning_rate": 5.594237288135593e-05,
+      "loss": 0.0082,
+      "step": 24500
+    },
+    {
+      "epoch": 83.05657237936772,
+      "grad_norm": 0.034305017441511154,
+      "learning_rate": 5.085762711864406e-05,
+      "loss": 0.0081,
+      "step": 25000
+    },
+    {
+      "epoch": 83.05657237936772,
+      "eval_loss": 0.23471036553382874,
+      "eval_runtime": 5.3686,
+      "eval_samples_per_second": 18.813,
+      "eval_steps_per_second": 2.422,
+      "eval_wer": 0.23333333333333334,
+      "step": 25000
+    },
+    {
+      "epoch": 84.71880199667221,
+      "grad_norm": 0.006502960808575153,
+      "learning_rate": 4.57728813559322e-05,
+      "loss": 0.0057,
+      "step": 25500
+    },
+    {
+      "epoch": 86.3793677204659,
+      "grad_norm": 0.5881304144859314,
+      "learning_rate": 4.0688135593220334e-05,
+      "loss": 0.0072,
+      "step": 26000
+    },
+    {
+      "epoch": 86.3793677204659,
+      "eval_loss": 0.22321127355098724,
+      "eval_runtime": 5.3519,
+      "eval_samples_per_second": 18.872,
+      "eval_steps_per_second": 2.429,
+      "eval_wer": 0.22903225806451613,
+      "step": 26000
+    },
+    {
+      "epoch": 88.03993344425957,
+      "grad_norm": 0.2054450660943985,
+      "learning_rate": 3.560338983050847e-05,
+      "loss": 0.0063,
+      "step": 26500
+    },
+    {
+      "epoch": 89.70216306156406,
+      "grad_norm": 0.25417467951774597,
+      "learning_rate": 3.051864406779661e-05,
+      "loss": 0.0064,
+      "step": 27000
+    },
+    {
+      "epoch": 89.70216306156406,
+      "eval_loss": 0.22117015719413757,
+      "eval_runtime": 5.3469,
+      "eval_samples_per_second": 18.89,
+      "eval_steps_per_second": 2.431,
+      "eval_wer": 0.22795698924731184,
+      "step": 27000
+    },
+    {
+      "epoch": 91.36272878535773,
+      "grad_norm": 0.26413634419441223,
+      "learning_rate": 2.5433898305084745e-05,
+      "loss": 0.0052,
+      "step": 27500
+    },
+    {
+      "epoch": 93.02329450915141,
+      "grad_norm": 0.06111468747258186,
+      "learning_rate": 2.034915254237288e-05,
+      "loss": 0.0044,
+      "step": 28000
+    },
+    {
+      "epoch": 93.02329450915141,
+      "eval_loss": 0.22874999046325684,
+      "eval_runtime": 5.2229,
+      "eval_samples_per_second": 19.338,
+      "eval_steps_per_second": 2.489,
+      "eval_wer": 0.22580645161290322,
+      "step": 28000
+    },
+    {
+      "epoch": 94.6855241264559,
+      "grad_norm": 0.4941785931587219,
+      "learning_rate": 1.5264406779661016e-05,
+      "loss": 0.0041,
+      "step": 28500
+    },
+    {
+      "epoch": 96.34608985024958,
+      "grad_norm": 0.19530624151229858,
+      "learning_rate": 1.0179661016949151e-05,
+      "loss": 0.004,
+      "step": 29000
+    },
+    {
+      "epoch": 96.34608985024958,
+      "eval_loss": 0.22946567833423615,
+      "eval_runtime": 5.3077,
+      "eval_samples_per_second": 19.029,
+      "eval_steps_per_second": 2.449,
+      "eval_wer": 0.23440860215053763,
+      "step": 29000
+    },
+    {
+      "epoch": 98.00665557404326,
+      "grad_norm": 0.19543957710266113,
+      "learning_rate": 5.094915254237288e-06,
+      "loss": 0.0042,
+      "step": 29500
+    },
+    {
+      "epoch": 99.66888519134775,
+      "grad_norm": 0.6488747000694275,
+      "learning_rate": 1.0169491525423728e-08,
+      "loss": 0.0037,
+      "step": 30000
+    },
+    {
+      "epoch": 99.66888519134775,
+      "eval_loss": 0.22431735694408417,
+      "eval_runtime": 5.3048,
+      "eval_samples_per_second": 19.039,
+      "eval_steps_per_second": 2.451,
+      "eval_wer": 0.22043010752688172,
+      "step": 30000
+    },
+    {
+      "epoch": 99.66888519134775,
+      "step": 30000,
+      "total_flos": 2.0486046325976072e+19,
+      "train_loss": 0.08741244434913,
+      "train_runtime": 29833.4209,
+      "train_samples_per_second": 16.089,
+      "train_steps_per_second": 1.006
     }
   ],
   "logging_steps": 500,
+  "max_steps": 30000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.0486046325976072e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null