End of training

Files changed (4) hide show

README.md CHANGED Viewed

@@ -2,11 +2,17 @@
 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - alignment-handbook
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
@@ -17,17 +23,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6157
-- Rewards/chosen: -0.4865
-- Rewards/rejected: -0.8500
-- Rewards/accuracies: 0.3711
-- Rewards/margins: 0.3636
-- Logps/rejected: -162.1976
-- Logps/chosen: -112.5605
-- Logits/rejected: 1.5453
-- Logits/chosen: 1.4533
 - Use Label: 0.0
 - Pred Label: 0.0

 license: apache-2.0
 library_name: peft
 tags:
+- alignment-handbook
+- trl
+- dpo
+- generated_from_trainer
 - trl
 - dpo
 - alignment-handbook
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6152
+- Rewards/chosen: -0.5055
+- Rewards/rejected: -0.8740
+- Rewards/accuracies: 0.3789
+- Rewards/margins: 0.3685
+- Logps/rejected: -164.5882
+- Logps/chosen: -114.4584
+- Logits/rejected: 1.5984
+- Logits/chosen: 1.5070
 - Use Label: 0.0
 - Pred Label: 0.0

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 0.9867910742759705,
-    "eval_logits/rejected": 1.0411394834518433,
-    "eval_logps/chosen": -110.39482879638672,
-    "eval_logps/rejected": -161.07052612304688,
-    "eval_loss": 0.617142915725708,
     "eval_pred_label": 0.0,
-    "eval_rewards/accuracies": 0.37109375,
-    "eval_rewards/chosen": -0.4648258090019226,
-    "eval_rewards/margins": 0.3739502727985382,
-    "eval_rewards/rejected": -0.8387760519981384,
-    "eval_runtime": 125.4187,
     "eval_samples": 2000,
-    "eval_samples_per_second": 15.947,
-    "eval_steps_per_second": 0.255,
     "eval_use_label": 0.0,
     "train_loss": 0.6357159084743924,
     "train_runtime": 9601.7268,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.507018804550171,
+    "eval_logits/rejected": 1.598363995552063,
+    "eval_logps/chosen": -114.45843505859375,
+    "eval_logps/rejected": -164.58822631835938,
+    "eval_loss": 0.6152364015579224,
     "eval_pred_label": 0.0,
+    "eval_rewards/accuracies": 0.37890625,
+    "eval_rewards/chosen": -0.5054618120193481,
+    "eval_rewards/margins": 0.3684910833835602,
+    "eval_rewards/rejected": -0.8739528656005859,
+    "eval_runtime": 125.1233,
     "eval_samples": 2000,
+    "eval_samples_per_second": 15.984,
+    "eval_steps_per_second": 0.256,
     "eval_use_label": 0.0,
     "train_loss": 0.6357159084743924,
     "train_runtime": 9601.7268,

eval_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 0.9867910742759705,
-    "eval_logits/rejected": 1.0411394834518433,
-    "eval_logps/chosen": -110.39482879638672,
-    "eval_logps/rejected": -161.07052612304688,
-    "eval_loss": 0.617142915725708,
     "eval_pred_label": 0.0,
-    "eval_rewards/accuracies": 0.37109375,
-    "eval_rewards/chosen": -0.4648258090019226,
-    "eval_rewards/margins": 0.3739502727985382,
-    "eval_rewards/rejected": -0.8387760519981384,
-    "eval_runtime": 125.4187,
     "eval_samples": 2000,
-    "eval_samples_per_second": 15.947,
-    "eval_steps_per_second": 0.255,
     "eval_use_label": 0.0
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.507018804550171,
+    "eval_logits/rejected": 1.598363995552063,
+    "eval_logps/chosen": -114.45843505859375,
+    "eval_logps/rejected": -164.58822631835938,
+    "eval_loss": 0.6152364015579224,
     "eval_pred_label": 0.0,
+    "eval_rewards/accuracies": 0.37890625,
+    "eval_rewards/chosen": -0.5054618120193481,
+    "eval_rewards/margins": 0.3684910833835602,
+    "eval_rewards/rejected": -0.8739528656005859,
+    "eval_runtime": 125.1233,
     "eval_samples": 2000,
+    "eval_samples_per_second": 15.984,
+    "eval_steps_per_second": 0.256,
     "eval_use_label": 0.0
 }

runs/Mar20_15-13-30_uclaml04.cs.ucla.edu/events.out.tfevents.1710982613.uclaml04.cs.ucla.edu.3989465.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:440420edf9e2dff6c168225fda2a44a7443076b04b8a52d23c82e551005c5aaa
+size 935