Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +141 -106
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -25,13 +25,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "k_proj",
     "v_proj",
-    "gate_proj",
     "up_proj",
     "down_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "k_proj",
     "up_proj",
+    "o_proj",
+    "q_proj",
     "down_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fffaaf3dd6044593ef888cd121d4d57091cdf96d82288678999f506a36e70fc1
 size 349243752

 version https://git-lfs.github.com/spec/v1
+oid sha256:765031db245f46679d16364da940abe936eb759476eb39586b177763b63d7048
 size 349243752

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12537611b187c325f732a1c57df8d48a27b9201d8cc511ed058118b5306856a1
 size 177908741

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeecb7ce5c206a6e0864069a17767c8a6414e150ffc8ff984df3aa77cf4ce3b3
 size 177908741

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93da98f41e985fca73c3baca6a02ba03cfcce6986c7abd33cb201195e5fbab5c
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d6de30ce9af6a5ba1e64753f4acb301298a2e376005d9767c3d60d31cb45d5b
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da0b998422a3dc253ae0972fd9207eebf2190589880dd54501b58c1760fdda21
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad7bb275e743cbc804d55f372622f5470a926848e615f7806e17e210a72f38ef
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,156 +2,191 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01990049751243781,
   "eval_steps": 500,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0009950248756218905,
-      "grad_norm": 1.1177501678466797,
-      "learning_rate": 0.0,
-      "loss": 1.9834,
-      "step": 1
     },
     {
-      "epoch": 0.001990049751243781,
-      "grad_norm": 0.9374369382858276,
-      "learning_rate": 7e-07,
-      "loss": 1.7952,
-      "step": 2
     },
     {
-      "epoch": 0.0029850746268656717,
-      "grad_norm": 1.0108283758163452,
-      "learning_rate": 1.4e-06,
-      "loss": 1.9963,
-      "step": 3
     },
     {
-      "epoch": 0.003980099502487562,
-      "grad_norm": 0.9044333696365356,
-      "learning_rate": 2.1e-06,
-      "loss": 1.7992,
-      "step": 4
     },
     {
-      "epoch": 0.004975124378109453,
-      "grad_norm": 0.8546856045722961,
-      "learning_rate": 2.8e-06,
-      "loss": 2.0496,
-      "step": 5
     },
     {
-      "epoch": 0.005970149253731343,
-      "grad_norm": 0.8030872941017151,
-      "learning_rate": 3.5e-06,
-      "loss": 1.9614,
-      "step": 6
     },
     {
-      "epoch": 0.006965174129353234,
-      "grad_norm": 0.8157246708869934,
-      "learning_rate": 4.2e-06,
-      "loss": 1.832,
-      "step": 7
     },
     {
-      "epoch": 0.007960199004975124,
-      "grad_norm": 0.8207484483718872,
-      "learning_rate": 4.9e-06,
-      "loss": 1.8791,
-      "step": 8
     },
     {
-      "epoch": 0.008955223880597015,
-      "grad_norm": 0.9034633636474609,
-      "learning_rate": 5.6e-06,
-      "loss": 2.0136,
-      "step": 9
     },
     {
-      "epoch": 0.009950248756218905,
-      "grad_norm": 0.6087605953216553,
-      "learning_rate": 6.299999999999999e-06,
-      "loss": 1.593,
-      "step": 10
     },
     {
-      "epoch": 0.010945273631840797,
-      "grad_norm": 0.5611479878425598,
-      "learning_rate": 7e-06,
-      "loss": 1.6113,
-      "step": 11
     },
     {
-      "epoch": 0.011940298507462687,
-      "grad_norm": 0.46190792322158813,
-      "learning_rate": 7.699999999999999e-06,
-      "loss": 1.5577,
-      "step": 12
     },
     {
-      "epoch": 0.012935323383084577,
-      "grad_norm": 0.4395303726196289,
-      "learning_rate": 8.4e-06,
-      "loss": 1.5148,
-      "step": 13
     },
     {
-      "epoch": 0.013930348258706468,
-      "grad_norm": 0.4437845051288605,
-      "learning_rate": 9.1e-06,
-      "loss": 1.5968,
-      "step": 14
     },
     {
-      "epoch": 0.014925373134328358,
-      "grad_norm": 0.5449181199073792,
-      "learning_rate": 9.8e-06,
-      "loss": 1.7633,
-      "step": 15
     },
     {
-      "epoch": 0.015920398009950248,
-      "grad_norm": 0.5540159344673157,
-      "learning_rate": 1.05e-05,
-      "loss": 1.5104,
-      "step": 16
     },
     {
-      "epoch": 0.01691542288557214,
-      "grad_norm": 0.418242484331131,
-      "learning_rate": 1.12e-05,
-      "loss": 1.5135,
-      "step": 17
     },
     {
-      "epoch": 0.01791044776119403,
-      "grad_norm": 0.29859286546707153,
-      "learning_rate": 1.19e-05,
-      "loss": 1.3894,
-      "step": 18
     },
     {
-      "epoch": 0.01890547263681592,
-      "grad_norm": 0.36172112822532654,
-      "learning_rate": 1.2599999999999998e-05,
-      "loss": 1.4343,
-      "step": 19
     },
     {
-      "epoch": 0.01990049751243781,
-      "grad_norm": 0.4372071325778961,
-      "learning_rate": 1.33e-05,
-      "loss": 1.633,
-      "step": 20
     }
   ],
-  "logging_steps": 1,
-  "max_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -162,12 +197,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.4722461264248832e+16,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09950248756218906,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.003980099502487562,
+      "grad_norm": 1.1235613822937012,
+      "learning_rate": 1.785e-07,
+      "loss": 1.899,
+      "step": 4
     },
     {
+      "epoch": 0.007960199004975124,
+      "grad_norm": 1.061541199684143,
+      "learning_rate": 4.165e-07,
+      "loss": 1.8765,
+      "step": 8
     },
     {
+      "epoch": 0.011940298507462687,
+      "grad_norm": 0.7362794876098633,
+      "learning_rate": 6.544999999999999e-07,
+      "loss": 1.8281,
+      "step": 12
     },
     {
+      "epoch": 0.015920398009950248,
+      "grad_norm": 0.8780789971351624,
+      "learning_rate": 8.924999999999999e-07,
+      "loss": 1.8408,
+      "step": 16
     },
     {
+      "epoch": 0.01990049751243781,
+      "grad_norm": 0.705963671207428,
+      "learning_rate": 1.1305e-06,
+      "loss": 1.7984,
+      "step": 20
     },
     {
+      "epoch": 0.023880597014925373,
+      "grad_norm": 0.6901829838752747,
+      "learning_rate": 1.3685000000000001e-06,
+      "loss": 1.6908,
+      "step": 24
     },
     {
+      "epoch": 0.027860696517412936,
+      "grad_norm": 0.7429279685020447,
+      "learning_rate": 1.6065e-06,
+      "loss": 1.7849,
+      "step": 28
     },
     {
+      "epoch": 0.031840796019900496,
+      "grad_norm": 0.7095203995704651,
+      "learning_rate": 1.8444999999999999e-06,
+      "loss": 1.6476,
+      "step": 32
     },
     {
+      "epoch": 0.03582089552238806,
+      "grad_norm": 0.6006342172622681,
+      "learning_rate": 2.0825e-06,
+      "loss": 1.68,
+      "step": 36
     },
     {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 0.49123871326446533,
+      "learning_rate": 2.3205e-06,
+      "loss": 1.5384,
+      "step": 40
     },
     {
+      "epoch": 0.04378109452736319,
+      "grad_norm": 0.44953885674476624,
+      "learning_rate": 2.5584999999999997e-06,
+      "loss": 1.5843,
+      "step": 44
     },
     {
+      "epoch": 0.04776119402985075,
+      "grad_norm": 0.45015600323677063,
+      "learning_rate": 2.7965e-06,
+      "loss": 1.5667,
+      "step": 48
     },
     {
+      "epoch": 0.051741293532338306,
+      "grad_norm": 0.4326404333114624,
+      "learning_rate": 3.0345e-06,
+      "loss": 1.6001,
+      "step": 52
     },
     {
+      "epoch": 0.05572139303482587,
+      "grad_norm": 0.2951863408088684,
+      "learning_rate": 3.2725e-06,
+      "loss": 1.6729,
+      "step": 56
     },
     {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 0.23001885414123535,
+      "learning_rate": 3.5104999999999997e-06,
+      "loss": 1.4787,
+      "step": 60
     },
     {
+      "epoch": 0.06368159203980099,
+      "grad_norm": 0.29933151602745056,
+      "learning_rate": 3.7484999999999998e-06,
+      "loss": 1.4886,
+      "step": 64
     },
     {
+      "epoch": 0.06766169154228856,
+      "grad_norm": 0.3464262783527374,
+      "learning_rate": 3.9865e-06,
+      "loss": 1.4839,
+      "step": 68
     },
     {
+      "epoch": 0.07164179104477612,
+      "grad_norm": 0.18549823760986328,
+      "learning_rate": 4.2245e-06,
+      "loss": 1.5965,
+      "step": 72
     },
     {
+      "epoch": 0.07562189054726368,
+      "grad_norm": 0.1957472413778305,
+      "learning_rate": 4.4625e-06,
+      "loss": 1.4596,
+      "step": 76
     },
     {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 0.19810840487480164,
+      "learning_rate": 4.7005e-06,
+      "loss": 1.4978,
+      "step": 80
+    },
+    {
+      "epoch": 0.08358208955223881,
+      "grad_norm": 0.19601857662200928,
+      "learning_rate": 4.938499999999999e-06,
+      "loss": 1.5918,
+      "step": 84
+    },
+    {
+      "epoch": 0.08756218905472637,
+      "grad_norm": 0.21324580907821655,
+      "learning_rate": 5.1764999999999995e-06,
+      "loss": 1.4612,
+      "step": 88
+    },
+    {
+      "epoch": 0.09154228855721393,
+      "grad_norm": 0.18543551862239838,
+      "learning_rate": 5.4144999999999996e-06,
+      "loss": 1.5037,
+      "step": 92
+    },
+    {
+      "epoch": 0.0955223880597015,
+      "grad_norm": 0.20870834589004517,
+      "learning_rate": 5.6525e-06,
+      "loss": 1.4631,
+      "step": 96
+    },
+    {
+      "epoch": 0.09950248756218906,
+      "grad_norm": 0.1726507693529129,
+      "learning_rate": 5.8905e-06,
+      "loss": 1.4945,
+      "step": 100
     }
   ],
+  "logging_steps": 4,
+  "max_steps": 972,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.572895410683904e+16,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e93fc2110e24c8c1cd5be545899591697cd37b015c7526d6a4204695dbcf135
 size 7697

 version https://git-lfs.github.com/spec/v1
+oid sha256:6954ea297f3f47bf7e65177726af21c61a398f05a898f3f8ce402fc696622cfa
 size 7697