End of training

Browse files

Files changed (5) hide show

README.md +5 -3
all_results.json +11 -11
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +182 -112

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 library_name: transformers
 base_model: microsoft/wavlm-base
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # wavlm-salt-eng
-This model is a fine-tuned version of [microsoft/wavlm-base](https://huggingface.co/microsoft/wavlm-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2035
-- Wer: 0.2312
 ## Model description

 library_name: transformers
 base_model: microsoft/wavlm-base
 tags:
+- automatic-speech-recognition
+- Sunbird/salt
 - generated_from_trainer
 metrics:
 - wer
 # wavlm-salt-eng
+This model is a fine-tuned version of [microsoft/wavlm-base](https://huggingface.co/microsoft/wavlm-base) on the SUNBIRD/SALT - MULTISPEAKER-ENG dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2048
+- Wer: 0.2301
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 16.612312811980033,
-    "eval_loss": 0.18820452690124512,
-    "eval_runtime": 5.0598,
     "eval_samples": 101,
-    "eval_samples_per_second": 19.961,
-    "eval_steps_per_second": 2.569,
-    "eval_wer": 0.23655913978494625,
-    "total_flos": 3.418455970869674e+18,
-    "train_loss": 0.36079003715515134,
-    "train_runtime": 4716.5514,
     "train_samples": 4804,
-    "train_samples_per_second": 16.962,
-    "train_steps_per_second": 1.06
 }

 {
+    "epoch": 33.22296173044925,
+    "eval_loss": 0.20475824177265167,
+    "eval_runtime": 5.1372,
     "eval_samples": 101,
+    "eval_samples_per_second": 19.66,
+    "eval_steps_per_second": 2.531,
+    "eval_wer": 0.23010752688172043,
+    "total_flos": 6.831383494195675e+18,
+    "train_loss": 0.2052539484024048,
+    "train_runtime": 9327.6943,
     "train_samples": 4804,
+    "train_samples_per_second": 17.153,
+    "train_steps_per_second": 1.072
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 16.612312811980033,
-    "eval_loss": 0.18820452690124512,
-    "eval_runtime": 5.0598,
     "eval_samples": 101,
-    "eval_samples_per_second": 19.961,
-    "eval_steps_per_second": 2.569,
-    "eval_wer": 0.23655913978494625
 }

 {
+    "epoch": 33.22296173044925,
+    "eval_loss": 0.20475824177265167,
+    "eval_runtime": 5.1372,
     "eval_samples": 101,
+    "eval_samples_per_second": 19.66,
+    "eval_steps_per_second": 2.531,
+    "eval_wer": 0.23010752688172043
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 16.612312811980033,
-    "total_flos": 3.418455970869674e+18,
-    "train_loss": 0.36079003715515134,
-    "train_runtime": 4716.5514,
     "train_samples": 4804,
-    "train_samples_per_second": 16.962,
-    "train_steps_per_second": 1.06
 }

 {
+    "epoch": 33.22296173044925,
+    "total_flos": 6.831383494195675e+18,
+    "train_loss": 0.2052539484024048,
+    "train_runtime": 9327.6943,
     "train_samples": 4804,
+    "train_samples_per_second": 17.153,
+    "train_steps_per_second": 1.072
 }

trainer_state.json CHANGED Viewed

@@ -2,187 +2,257 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.612312811980033,
-  "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.6622296173044924,
-      "grad_norm": 2.9413349628448486,
       "learning_rate": 0.00029939999999999996,
-      "loss": 2.5427,
-      "step": 500
-    },
-    {
-      "epoch": 1.6622296173044924,
-      "eval_loss": 0.47842833399772644,
-      "eval_runtime": 4.9897,
-      "eval_samples_per_second": 20.242,
-      "eval_steps_per_second": 2.605,
-      "eval_wer": 0.4989247311827957,
       "step": 500
     },
     {
       "epoch": 3.32279534109817,
-      "grad_norm": 2.3059136867523193,
-      "learning_rate": 0.0002667333333333333,
-      "loss": 0.3692,
       "step": 1000
     },
     {
       "epoch": 3.32279534109817,
-      "eval_loss": 0.2931133806705475,
-      "eval_runtime": 5.0228,
-      "eval_samples_per_second": 20.108,
-      "eval_steps_per_second": 2.588,
-      "eval_wer": 0.34301075268817205,
       "step": 1000
     },
     {
       "epoch": 4.985024958402662,
-      "grad_norm": 2.698474407196045,
-      "learning_rate": 0.00023339999999999998,
-      "loss": 0.2097,
-      "step": 1500
-    },
-    {
-      "epoch": 4.985024958402662,
-      "eval_loss": 0.2500650882720947,
-      "eval_runtime": 4.9395,
-      "eval_samples_per_second": 20.447,
-      "eval_steps_per_second": 2.632,
-      "eval_wer": 0.3086021505376344,
       "step": 1500
     },
     {
       "epoch": 6.64559068219634,
-      "grad_norm": 1.3022229671478271,
-      "learning_rate": 0.00020006666666666663,
-      "loss": 0.1422,
       "step": 2000
     },
     {
       "epoch": 6.64559068219634,
-      "eval_loss": 0.24016684293746948,
-      "eval_runtime": 5.0406,
-      "eval_samples_per_second": 20.037,
-      "eval_steps_per_second": 2.579,
-      "eval_wer": 0.28279569892473116,
       "step": 2000
     },
     {
       "epoch": 8.306156405990016,
-      "grad_norm": 2.69899320602417,
-      "learning_rate": 0.00016673333333333334,
-      "loss": 0.1043,
-      "step": 2500
-    },
-    {
-      "epoch": 8.306156405990016,
-      "eval_loss": 0.24541184306144714,
-      "eval_runtime": 5.014,
-      "eval_samples_per_second": 20.144,
-      "eval_steps_per_second": 2.593,
-      "eval_wer": 0.2806451612903226,
       "step": 2500
     },
     {
       "epoch": 9.96838602329451,
-      "grad_norm": 1.2989884614944458,
-      "learning_rate": 0.0001334,
-      "loss": 0.0761,
       "step": 3000
     },
     {
       "epoch": 9.96838602329451,
-      "eval_loss": 0.24501413106918335,
-      "eval_runtime": 5.0117,
-      "eval_samples_per_second": 20.153,
-      "eval_steps_per_second": 2.594,
-      "eval_wer": 0.26881720430107525,
       "step": 3000
     },
     {
       "epoch": 11.628951747088186,
-      "grad_norm": 0.30380403995513916,
-      "learning_rate": 0.00010006666666666666,
-      "loss": 0.0571,
-      "step": 3500
-    },
-    {
-      "epoch": 11.628951747088186,
-      "eval_loss": 0.2245447188615799,
-      "eval_runtime": 5.0821,
-      "eval_samples_per_second": 19.874,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.26021505376344084,
       "step": 3500
     },
     {
       "epoch": 13.289517470881863,
-      "grad_norm": 1.1707613468170166,
-      "learning_rate": 6.673333333333333e-05,
-      "loss": 0.0438,
       "step": 4000
     },
     {
       "epoch": 13.289517470881863,
-      "eval_loss": 0.2156941294670105,
-      "eval_runtime": 4.9807,
-      "eval_samples_per_second": 20.278,
-      "eval_steps_per_second": 2.61,
-      "eval_wer": 0.23978494623655913,
       "step": 4000
     },
     {
       "epoch": 14.951747088186355,
-      "grad_norm": 0.5127735137939453,
-      "learning_rate": 3.34e-05,
-      "loss": 0.0358,
-      "step": 4500
-    },
-    {
-      "epoch": 14.951747088186355,
-      "eval_loss": 0.18724308907985687,
-      "eval_runtime": 4.9803,
-      "eval_samples_per_second": 20.28,
-      "eval_steps_per_second": 2.61,
-      "eval_wer": 0.23440860215053763,
       "step": 4500
     },
     {
       "epoch": 16.612312811980033,
-      "grad_norm": 0.36860519647598267,
-      "learning_rate": 6.666666666666667e-08,
-      "loss": 0.027,
       "step": 5000
     },
     {
       "epoch": 16.612312811980033,
-      "eval_loss": 0.1871846616268158,
-      "eval_runtime": 4.9866,
-      "eval_samples_per_second": 20.254,
-      "eval_steps_per_second": 2.607,
-      "eval_wer": 0.23763440860215054,
       "step": 5000
     },
     {
-      "epoch": 16.612312811980033,
-      "step": 5000,
-      "total_flos": 3.418455970869674e+18,
-      "train_loss": 0.36079003715515134,
-      "train_runtime": 4716.5514,
-      "train_samples_per_second": 16.962,
-      "train_steps_per_second": 1.06
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 17,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -196,7 +266,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.418455970869674e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 33.22296173044925,
+  "eval_steps": 1000,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.6622296173044924,
+      "grad_norm": 2.9154744148254395,
       "learning_rate": 0.00029939999999999996,
+      "loss": 2.5693,
       "step": 500
     },
     {
       "epoch": 3.32279534109817,
+      "grad_norm": 2.086198091506958,
+      "learning_rate": 0.00028424210526315787,
+      "loss": 0.3806,
       "step": 1000
     },
     {
       "epoch": 3.32279534109817,
+      "eval_loss": 0.3095531761646271,
+      "eval_runtime": 5.0217,
+      "eval_samples_per_second": 20.113,
+      "eval_steps_per_second": 2.589,
+      "eval_wer": 0.3956989247311828,
       "step": 1000
     },
     {
       "epoch": 4.985024958402662,
+      "grad_norm": 3.3510117530822754,
+      "learning_rate": 0.00026845263157894737,
+      "loss": 0.2254,
       "step": 1500
     },
     {
       "epoch": 6.64559068219634,
+      "grad_norm": 2.1008408069610596,
+      "learning_rate": 0.0002526631578947368,
+      "loss": 0.156,
       "step": 2000
     },
     {
       "epoch": 6.64559068219634,
+      "eval_loss": 0.27666544914245605,
+      "eval_runtime": 5.0002,
+      "eval_samples_per_second": 20.199,
+      "eval_steps_per_second": 2.6,
+      "eval_wer": 0.3247311827956989,
       "step": 2000
     },
     {
       "epoch": 8.306156405990016,
+      "grad_norm": 2.587332010269165,
+      "learning_rate": 0.00023687368421052628,
+      "loss": 0.1241,
       "step": 2500
     },
     {
       "epoch": 9.96838602329451,
+      "grad_norm": 0.9522386789321899,
+      "learning_rate": 0.00022108421052631578,
+      "loss": 0.1015,
       "step": 3000
     },
     {
       "epoch": 9.96838602329451,
+      "eval_loss": 0.28304827213287354,
+      "eval_runtime": 4.972,
+      "eval_samples_per_second": 20.314,
+      "eval_steps_per_second": 2.615,
+      "eval_wer": 0.2838709677419355,
       "step": 3000
     },
     {
       "epoch": 11.628951747088186,
+      "grad_norm": 1.9689347743988037,
+      "learning_rate": 0.00020529473684210525,
+      "loss": 0.0853,
       "step": 3500
     },
     {
       "epoch": 13.289517470881863,
+      "grad_norm": 1.2812440395355225,
+      "learning_rate": 0.0001895052631578947,
+      "loss": 0.0755,
       "step": 4000
     },
     {
       "epoch": 13.289517470881863,
+      "eval_loss": 0.27407756447792053,
+      "eval_runtime": 4.9737,
+      "eval_samples_per_second": 20.307,
+      "eval_steps_per_second": 2.614,
+      "eval_wer": 0.289247311827957,
       "step": 4000
     },
     {
       "epoch": 14.951747088186355,
+      "grad_norm": 0.7250840067863464,
+      "learning_rate": 0.0001737157894736842,
+      "loss": 0.0641,
       "step": 4500
     },
     {
       "epoch": 16.612312811980033,
+      "grad_norm": 0.5321822166442871,
+      "learning_rate": 0.00015792631578947366,
+      "loss": 0.0567,
       "step": 5000
     },
     {
       "epoch": 16.612312811980033,
+      "eval_loss": 0.20905862748622894,
+      "eval_runtime": 4.9679,
+      "eval_samples_per_second": 20.331,
+      "eval_steps_per_second": 2.617,
+      "eval_wer": 0.24946236559139784,
       "step": 5000
     },
     {
+      "epoch": 18.27287853577371,
+      "grad_norm": 0.936040997505188,
+      "learning_rate": 0.00014213684210526316,
+      "loss": 0.0463,
+      "step": 5500
+    },
+    {
+      "epoch": 19.935108153078204,
+      "grad_norm": 1.0212537050247192,
+      "learning_rate": 0.00012634736842105263,
+      "loss": 0.0386,
+      "step": 6000
+    },
+    {
+      "epoch": 19.935108153078204,
+      "eval_loss": 0.22282364964485168,
+      "eval_runtime": 4.9552,
+      "eval_samples_per_second": 20.382,
+      "eval_steps_per_second": 2.623,
+      "eval_wer": 0.24731182795698925,
+      "step": 6000
+    },
+    {
+      "epoch": 21.59567387687188,
+      "grad_norm": 0.5801821947097778,
+      "learning_rate": 0.0001105578947368421,
+      "loss": 0.0346,
+      "step": 6500
+    },
+    {
+      "epoch": 23.25623960066556,
+      "grad_norm": 1.4400817155838013,
+      "learning_rate": 9.476842105263157e-05,
+      "loss": 0.0316,
+      "step": 7000
+    },
+    {
+      "epoch": 23.25623960066556,
+      "eval_loss": 0.22444939613342285,
+      "eval_runtime": 5.0325,
+      "eval_samples_per_second": 20.069,
+      "eval_steps_per_second": 2.583,
+      "eval_wer": 0.26881720430107525,
+      "step": 7000
+    },
+    {
+      "epoch": 24.91846921797005,
+      "grad_norm": 1.2605141401290894,
+      "learning_rate": 7.897894736842106e-05,
+      "loss": 0.0262,
+      "step": 7500
+    },
+    {
+      "epoch": 26.579034941763727,
+      "grad_norm": 0.4129526615142822,
+      "learning_rate": 6.318947368421052e-05,
+      "loss": 0.0233,
+      "step": 8000
+    },
+    {
+      "epoch": 26.579034941763727,
+      "eval_loss": 0.21599678695201874,
+      "eval_runtime": 4.9966,
+      "eval_samples_per_second": 20.214,
+      "eval_steps_per_second": 2.602,
+      "eval_wer": 0.23010752688172043,
+      "step": 8000
+    },
+    {
+      "epoch": 28.239600665557404,
+      "grad_norm": 0.13726775348186493,
+      "learning_rate": 4.7399999999999993e-05,
+      "loss": 0.0187,
+      "step": 8500
+    },
+    {
+      "epoch": 29.901830282861898,
+      "grad_norm": 0.28249457478523254,
+      "learning_rate": 3.161052631578947e-05,
+      "loss": 0.0186,
+      "step": 9000
+    },
+    {
+      "epoch": 29.901830282861898,
+      "eval_loss": 0.2085915356874466,
+      "eval_runtime": 4.9628,
+      "eval_samples_per_second": 20.351,
+      "eval_steps_per_second": 2.619,
+      "eval_wer": 0.23225806451612904,
+      "step": 9000
+    },
+    {
+      "epoch": 31.562396006655575,
+      "grad_norm": 0.8073873519897461,
+      "learning_rate": 1.5821052631578945e-05,
+      "loss": 0.0151,
+      "step": 9500
+    },
+    {
+      "epoch": 33.22296173044925,
+      "grad_norm": 0.1773974597454071,
+      "learning_rate": 3.157894736842105e-08,
+      "loss": 0.0137,
+      "step": 10000
+    },
+    {
+      "epoch": 33.22296173044925,
+      "eval_loss": 0.20346209406852722,
+      "eval_runtime": 4.9853,
+      "eval_samples_per_second": 20.259,
+      "eval_steps_per_second": 2.608,
+      "eval_wer": 0.23118279569892472,
+      "step": 10000
+    },
+    {
+      "epoch": 33.22296173044925,
+      "step": 10000,
+      "total_flos": 6.831383494195675e+18,
+      "train_loss": 0.2052539484024048,
+      "train_runtime": 9327.6943,
+      "train_samples_per_second": 17.153,
+      "train_steps_per_second": 1.072
     }
   ],
   "logging_steps": 500,
+  "max_steps": 10000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 34,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6.831383494195675e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null