navjordj
/

flan-t5-large_en-no

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_bleu": 34.2122,
-    "eval_gen_len": 65.0263,
-    "eval_loss": 0.7057932019233704,
-    "eval_runtime": 3541.072,
     "eval_samples": 12422,
-    "eval_samples_per_second": 3.508,
-    "eval_steps_per_second": 0.219,
-    "train_loss": 1.0872868923270456,
-    "train_runtime": 30832.4334,
     "train_samples": 62107,
-    "train_samples_per_second": 6.043,
-    "train_steps_per_second": 0.378
 }

 {
+    "epoch": 5.0,
+    "eval_bleu": 36.7184,
+    "eval_gen_len": 64.6249,
+    "eval_loss": 0.6334519386291504,
+    "eval_runtime": 3498.0158,
     "eval_samples": 12422,
+    "eval_samples_per_second": 3.551,
+    "eval_steps_per_second": 0.222,
+    "train_loss": 0.3320594994939522,
+    "train_runtime": 31593.7732,
     "train_samples": 62107,
+    "train_samples_per_second": 9.829,
+    "train_steps_per_second": 0.614
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 3.0,
-    "eval_bleu": 34.2122,
-    "eval_gen_len": 65.0263,
-    "eval_loss": 0.7057932019233704,
-    "eval_runtime": 3541.072,
     "eval_samples": 12422,
-    "eval_samples_per_second": 3.508,
-    "eval_steps_per_second": 0.219
 }

 {
+    "epoch": 5.0,
+    "eval_bleu": 36.7184,
+    "eval_gen_len": 64.6249,
+    "eval_loss": 0.6334519386291504,
+    "eval_runtime": 3498.0158,
     "eval_samples": 12422,
+    "eval_samples_per_second": 3.551,
+    "eval_steps_per_second": 0.222
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.0872868923270456,
-    "train_runtime": 30832.4334,
     "train_samples": 62107,
-    "train_samples_per_second": 6.043,
-    "train_steps_per_second": 0.378
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.3320594994939522,
+    "train_runtime": 31593.7732,
     "train_samples": 62107,
+    "train_samples_per_second": 9.829,
+    "train_steps_per_second": 0.614
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "global_step": 11646,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -699,23 +699,491 @@
     },
     {
       "epoch": 2.99,
-      "learning_rate": 1.97492701356689e-07,
-      "loss": 0.881,
       "step": 11600
     },
     {
-      "epoch": 3.0,
-      "step": 11646,
-      "total_flos": 6.280174860167578e+16,
-      "train_loss": 1.0872868923270456,
-      "train_runtime": 30832.4334,
-      "train_samples_per_second": 6.043,
-      "train_steps_per_second": 0.378
     }
   ],
-  "max_steps": 11646,
-  "num_train_epochs": 3,
-  "total_flos": 6.280174860167578e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 19410,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 2.99,
+      "learning_rate": 2.0118495620814015e-05,
+      "loss": 0.8823,
       "step": 11600
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 1.9860896445131376e-05,
+      "loss": 0.8469,
+      "step": 11700
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 1.960329726944874e-05,
+      "loss": 0.8762,
+      "step": 11800
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.93456980937661e-05,
+      "loss": 0.8434,
+      "step": 11900
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 1.9088098918083462e-05,
+      "loss": 0.856,
+      "step": 12000
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.8830499742400827e-05,
+      "loss": 0.8453,
+      "step": 12100
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.8572900566718188e-05,
+      "loss": 0.8447,
+      "step": 12200
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.831530139103555e-05,
+      "loss": 0.8621,
+      "step": 12300
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 1.8057702215352913e-05,
+      "loss": 0.8375,
+      "step": 12400
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 1.7800103039670274e-05,
+      "loss": 0.8614,
+      "step": 12500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 1.7542503863987635e-05,
+      "loss": 0.8449,
+      "step": 12600
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.7284904688305e-05,
+      "loss": 0.8578,
+      "step": 12700
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.702730551262236e-05,
+      "loss": 0.8627,
+      "step": 12800
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 1.676970633693972e-05,
+      "loss": 0.8396,
+      "step": 12900
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.6512107161257085e-05,
+      "loss": 0.8391,
+      "step": 13000
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 1.6254507985574446e-05,
+      "loss": 0.8475,
+      "step": 13100
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 1.5996908809891807e-05,
+      "loss": 0.8225,
+      "step": 13200
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 1.573930963420917e-05,
+      "loss": 0.8395,
+      "step": 13300
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 1.5481710458526533e-05,
+      "loss": 0.8366,
+      "step": 13400
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.5224111282843895e-05,
+      "loss": 0.8371,
+      "step": 13500
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 1.4966512107161256e-05,
+      "loss": 0.8294,
+      "step": 13600
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 1.4708912931478619e-05,
+      "loss": 0.83,
+      "step": 13700
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.4451313755795981e-05,
+      "loss": 0.8357,
+      "step": 13800
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 1.4193714580113342e-05,
+      "loss": 0.8355,
+      "step": 13900
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.3936115404430705e-05,
+      "loss": 0.8592,
+      "step": 14000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 1.367851622874807e-05,
+      "loss": 0.811,
+      "step": 14100
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 1.3420917053065432e-05,
+      "loss": 0.8269,
+      "step": 14200
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.3163317877382795e-05,
+      "loss": 0.8447,
+      "step": 14300
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 1.2905718701700156e-05,
+      "loss": 0.8463,
+      "step": 14400
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.2648119526017518e-05,
+      "loss": 0.8257,
+      "step": 14500
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 1.239052035033488e-05,
+      "loss": 0.8134,
+      "step": 14600
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 1.2132921174652242e-05,
+      "loss": 0.826,
+      "step": 14700
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.1875321998969603e-05,
+      "loss": 0.8358,
+      "step": 14800
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 1.1617722823286967e-05,
+      "loss": 0.8237,
+      "step": 14900
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 1.1360123647604328e-05,
+      "loss": 0.8314,
+      "step": 15000
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 1.110252447192169e-05,
+      "loss": 0.8022,
+      "step": 15100
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 1.0844925296239053e-05,
+      "loss": 0.8039,
+      "step": 15200
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.0587326120556414e-05,
+      "loss": 0.8209,
+      "step": 15300
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 1.0329726944873777e-05,
+      "loss": 0.8108,
+      "step": 15400
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 1.007212776919114e-05,
+      "loss": 0.8068,
+      "step": 15500
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 9.8145285935085e-06,
+      "loss": 0.8114,
+      "step": 15600
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 9.556929417825863e-06,
+      "loss": 0.796,
+      "step": 15700
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 9.299330242143226e-06,
+      "loss": 0.8125,
+      "step": 15800
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 9.041731066460587e-06,
+      "loss": 0.7814,
+      "step": 15900
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 8.78413189077795e-06,
+      "loss": 0.8087,
+      "step": 16000
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 8.526532715095312e-06,
+      "loss": 0.7925,
+      "step": 16100
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 8.268933539412673e-06,
+      "loss": 0.7946,
+      "step": 16200
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 8.011334363730036e-06,
+      "loss": 0.8019,
+      "step": 16300
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 7.753735188047398e-06,
+      "loss": 0.7974,
+      "step": 16400
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 7.496136012364761e-06,
+      "loss": 0.7763,
+      "step": 16500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 7.238536836682124e-06,
+      "loss": 0.8158,
+      "step": 16600
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 6.9809376609994855e-06,
+      "loss": 0.8042,
+      "step": 16700
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 6.723338485316847e-06,
+      "loss": 0.7932,
+      "step": 16800
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 6.46573930963421e-06,
+      "loss": 0.7899,
+      "step": 16900
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 6.208140133951572e-06,
+      "loss": 0.7974,
+      "step": 17000
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 5.9505409582689335e-06,
+      "loss": 0.8083,
+      "step": 17100
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 5.692941782586296e-06,
+      "loss": 0.7924,
+      "step": 17200
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 5.435342606903658e-06,
+      "loss": 0.7591,
+      "step": 17300
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 5.17774343122102e-06,
+      "loss": 0.8039,
+      "step": 17400
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 4.9201442555383824e-06,
+      "loss": 0.7864,
+      "step": 17500
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 4.662545079855744e-06,
+      "loss": 0.779,
+      "step": 17600
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 4.404945904173107e-06,
+      "loss": 0.7983,
+      "step": 17700
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 4.1473467284904695e-06,
+      "loss": 0.7849,
+      "step": 17800
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 3.889747552807831e-06,
+      "loss": 0.7977,
+      "step": 17900
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 3.6321483771251936e-06,
+      "loss": 0.7929,
+      "step": 18000
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 3.3745492014425554e-06,
+      "loss": 0.7761,
+      "step": 18100
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 3.116950025759918e-06,
+      "loss": 0.7998,
+      "step": 18200
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 2.85935085007728e-06,
+      "loss": 0.7863,
+      "step": 18300
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 2.601751674394642e-06,
+      "loss": 0.7726,
+      "step": 18400
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 2.3441524987120042e-06,
+      "loss": 0.7742,
+      "step": 18500
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 2.0865533230293665e-06,
+      "loss": 0.782,
+      "step": 18600
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 1.8289541473467287e-06,
+      "loss": 0.7836,
+      "step": 18700
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 1.5713549716640907e-06,
+      "loss": 0.7859,
+      "step": 18800
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 1.313755795981453e-06,
+      "loss": 0.8002,
+      "step": 18900
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 1.0561566202988151e-06,
+      "loss": 0.7903,
+      "step": 19000
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 7.985574446161774e-07,
+      "loss": 0.7888,
+      "step": 19100
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 5.409582689335394e-07,
+      "loss": 0.7848,
+      "step": 19200
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 2.8335909325090165e-07,
+      "loss": 0.7853,
+      "step": 19300
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 2.5759917568263784e-08,
+      "loss": 0.7858,
+      "step": 19400
+    },
+    {
+      "epoch": 5.0,
+      "step": 19410,
+      "total_flos": 1.0472274521715917e+17,
+      "train_loss": 0.3320594994939522,
+      "train_runtime": 31593.7732,
+      "train_samples_per_second": 9.829,
+      "train_steps_per_second": 0.614
     }
   ],
+  "max_steps": 19410,
+  "num_train_epochs": 5,
+  "total_flos": 1.0472274521715917e+17,
   "trial_name": null,
   "trial_params": null
 }