End of training

Files changed (6) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # llama3_8b_baseline_instructskillmix
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.7067

 # llama3_8b_baseline_instructskillmix
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the PrincetonPLI/Instruct-SkillMix-SDD dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.7067

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 1.8533,
-    "eval_samples_per_second": 54.497,
-    "eval_steps_per_second": 2.158,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 2741718698.6666665,
-    "train_runtime": 750.1141,
-    "train_samples_per_second": 7.675,
-    "train_steps_per_second": 0.004
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7066795825958252,
+    "eval_runtime": 2.1283,
+    "eval_samples_per_second": 47.456,
+    "eval_steps_per_second": 1.879,
+    "total_flos": 9945533644800.0,
+    "train_loss": 1.8230679829915364,
+    "train_runtime": 538.5669,
+    "train_samples_per_second": 10.689,
+    "train_steps_per_second": 0.006
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 1.8533,
-    "eval_samples_per_second": 54.497,
-    "eval_steps_per_second": 2.158
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7066795825958252,
+    "eval_runtime": 2.1283,
+    "eval_samples_per_second": 47.456,
+    "eval_steps_per_second": 1.879
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.6,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 2741718698.6666665,
-    "train_runtime": 750.1141,
-    "train_samples_per_second": 7.675,
-    "train_steps_per_second": 0.004
 }

 {
     "epoch": 1.6,
+    "total_flos": 9945533644800.0,
+    "train_loss": 1.8230679829915364,
+    "train_runtime": 538.5669,
+    "train_samples_per_second": 10.689,
+    "train_steps_per_second": 0.006
 }

trainer_state.json CHANGED Viewed

@@ -10,28 +10,28 @@
   "log_history": [
     {
       "epoch": 0.5333333333333333,
-      "eval_loss": NaN,
-      "eval_runtime": 1.6602,
-      "eval_samples_per_second": 60.835,
-      "eval_steps_per_second": 2.409,
       "step": 1
     },
     {
       "epoch": 1.6,
-      "eval_loss": NaN,
-      "eval_runtime": 2.5765,
-      "eval_samples_per_second": 39.201,
-      "eval_steps_per_second": 1.552,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
-      "total_flos": 2.833014287331492e+17,
-      "train_loss": 2741718698.6666665,
-      "train_runtime": 750.1141,
-      "train_samples_per_second": 7.675,
-      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 10,
@@ -51,7 +51,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.833014287331492e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.5333333333333333,
+      "eval_loss": 1.8345630168914795,
+      "eval_runtime": 2.0718,
+      "eval_samples_per_second": 48.75,
+      "eval_steps_per_second": 1.931,
       "step": 1
     },
     {
       "epoch": 1.6,
+      "eval_loss": 1.7066795825958252,
+      "eval_runtime": 2.1098,
+      "eval_samples_per_second": 47.873,
+      "eval_steps_per_second": 1.896,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
+      "total_flos": 9945533644800.0,
+      "train_loss": 1.8230679829915364,
+      "train_runtime": 538.5669,
+      "train_samples_per_second": 10.689,
+      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9945533644800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed