Model save

Browse files

Files changed (10) hide show

README.md +68 -0
all_results.json +9 -0
generation_config.json +6 -0
logs/amlt_code_runner.txt +20 -20
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +9 -0
trainer_state.json +2546 -0
training_args.bin +1 -1

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: alignment-handbook/zephyr-7b-sft-full
+library_name: transformers
+model_name: ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_4
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_4
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="YuchenLi01/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_4", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuchenl4/lmpref/runs/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_4try1AQ7EqBa79mVTBFGkPmwsTg98tOTpna0KPJ8a460TU3eL3Y)
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.12.0
+- Transformers: 4.46.3
+- Pytorch: 2.3.0
+- Datasets: 3.1.0
+- Tokenizers: 0.20.3
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4748117412123071,
+    "train_runtime": 31366.6388,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.454,
+    "train_steps_per_second": 0.023
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

logs/amlt_code_runner.txt CHANGED Viewed

@@ -1,21 +1,21 @@
-2025-04-10 10:30:01,231:amlt-code-runner:INFO - SINGULARITY_LOCATION: centralus
-2025-04-10 10:30:01,231:amlt-code-runner:INFO - AISC_INSTANCE_TYPE: Singularity.ND96_v4
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - Not removing AzureML's cd commands from /etc/profile due to an error: [Errno 13] Permission denied: '/etc/profile'
-2025-04-10 10:30:04,308:amlt-code-runner:WARNING - Environment variable 'NCCL_SOCKET_IFNAME' already set to '=eth0', not changing to '^docker0,lo'
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - RANK = 0
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - LOCAL_RANK = None
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - WORLD_SIZE = 1
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - MASTER_ADDR = node-0
-2025-04-10 10:30:04,308:amlt-code-runner:INFO - MASTER_PORT = 9500
-2025-04-10 10:30:04,310:amlt-code-runner:WARNING - Installing amlt runtime dependencies: ['wrapt', 'azure-identity', 'python-dateutil', 'pytz'] into /tmp/amlt-user-base
-2025-04-10 10:30:05,864:amlt-code-runner:INFO - Setting WANDB_RUN_ID to 'sincere_feast_96p6v4qzfp_156'
-2025-04-10 10:30:05,864:amlt-code-runner:INFO - Expanding HyperDrive arguments into /tmp/amlt_run_hd.sh
-2025-04-10 10:30:06,183:amlt-code-runner:INFO - Parsing tracking uri /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws
-2025-04-10 10:30:06,183:amlt-code-runner:INFO - Tracking uri /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws has sub id bbd59374-b76d-4cb5-88b6-2be35debc7cf, resource group jordan, and workspace jordanws
-2025-04-10 10:30:06,183:aml_token_auth:WARNING - The AzureMLTokenAuthentication created will not be updated due to missing params. The token expires on 2025-04-30 23:33:23.
-2025-04-10 10:30:06,185:urllib3.connectionpool:DEBUG - Starting new HTTPS connection (1): eastus.api.azureml.ms:443
-2025-04-10 10:30:06,695:urllib3.connectionpool:DEBUG - https://eastus.api.azureml.ms:443 "POST /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws/api/2.0/mlflow/runs/set-tag HTTP/11" 200 3
-2025-04-10 10:30:06,719:amlt-code-runner:INFO - Executing ./amlt_setup.sh, /tmp/amlt_run_hd.sh
-2025-04-10 10:30:06,789:background_dirsync:INFO - Starting directory syncer from '/scratch/amlt_code/outputs' to '/mnt/output/projects/amlt_project/amlt-results/sincere_feast_96p6v4qzfp_156', every 30.000000s
-2025-04-10 10:30:06,793:background_dirsync:INFO - Starting directory syncer from '/scratch/azureml/cr/j/35fb2799c61349d98b8123fffa49511a/exe/wd/logs' to '/scratch/amlt_code/outputs/logs', every 30.000000s

+2025-04-10 10:33:08,347:amlt-code-runner:INFO - SINGULARITY_LOCATION: southcentralus
+2025-04-10 10:33:08,347:amlt-code-runner:INFO - AISC_INSTANCE_TYPE: Singularity.ND96_v4
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - Not removing AzureML's cd commands from /etc/profile due to an error: [Errno 13] Permission denied: '/etc/profile'
+2025-04-10 10:33:11,342:amlt-code-runner:WARNING - Environment variable 'NCCL_SOCKET_IFNAME' already set to '=eth0', not changing to '^docker0,lo'
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - RANK = 0
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - LOCAL_RANK = None
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - WORLD_SIZE = 1
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - MASTER_ADDR = node-0
+2025-04-10 10:33:11,342:amlt-code-runner:INFO - MASTER_PORT = 9500
+2025-04-10 10:33:11,344:amlt-code-runner:WARNING - Installing amlt runtime dependencies: ['wrapt', 'azure-identity', 'python-dateutil', 'pytz'] into /tmp/amlt-user-base
+2025-04-10 10:33:12,790:amlt-code-runner:INFO - Setting WANDB_RUN_ID to 'sincere_feast_96p6v4qzfp_164'
+2025-04-10 10:33:12,790:amlt-code-runner:INFO - Expanding HyperDrive arguments into /tmp/amlt_run_hd.sh
+2025-04-10 10:33:13,147:amlt-code-runner:INFO - Parsing tracking uri /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws
+2025-04-10 10:33:13,148:amlt-code-runner:INFO - Tracking uri /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws has sub id bbd59374-b76d-4cb5-88b6-2be35debc7cf, resource group jordan, and workspace jordanws
+2025-04-10 10:33:13,148:aml_token_auth:WARNING - The AzureMLTokenAuthentication created will not be updated due to missing params. The token expires on 2025-04-30 23:33:23.
+2025-04-10 10:33:13,150:urllib3.connectionpool:DEBUG - Starting new HTTPS connection (1): eastus.api.azureml.ms:443
+2025-04-10 10:33:13,447:urllib3.connectionpool:DEBUG - https://eastus.api.azureml.ms:443 "POST /mlflow/v1.0/subscriptions/bbd59374-b76d-4cb5-88b6-2be35debc7cf/resourceGroups/jordan/providers/Microsoft.MachineLearningServices/workspaces/jordanws/api/2.0/mlflow/runs/set-tag HTTP/11" 200 3
+2025-04-10 10:33:13,470:amlt-code-runner:INFO - Executing ./amlt_setup.sh, /tmp/amlt_run_hd.sh
+2025-04-10 10:33:13,542:background_dirsync:INFO - Starting directory syncer from '/scratch/amlt_code/outputs' to '/mnt/output/projects/amlt_project/amlt-results/sincere_feast_96p6v4qzfp_164', every 30.000000s
+2025-04-10 10:33:13,546:background_dirsync:INFO - Starting directory syncer from '/scratch/azureml/cr/j/d08d0e4c5a6740fcb5d763e448d9bef2/exe/wd/logs' to '/scratch/amlt_code/outputs/logs', every 30.000000s

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5e3cab5dfc9f994bdd14d4ae32e07fa40616a72de3951cd0fb1cb38d7d23e26
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:c51d010731b43dcdbdd298eb7b8a3e5edf940333ed3164982c14ba047f969875
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:692a7b3f73cbc8e85fbec5db9bf4e9e964161c1bd5552066319d77f3176d6764
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:81d50b0f1c64c01123cc946484b7149b635a247871b4451a035ffca683adb768
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84f469b1474046f403eaa6febeb977311085042782a8dff6729775551c4b10c3
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:355eae162fe56553eac5e61955fe8a8074c3ec5d062917d8759be31aa3b7d4d1
 size 4540516344

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4748117412123071,
+    "train_runtime": 31366.6388,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.454,
+    "train_steps_per_second": 0.023
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2546 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 8,
+  "global_step": 713,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.001402524544179523,
+      "grad_norm": 105.58506812517814,
+      "learning_rate": 1.3888888888888888e-09,
+      "logits/chosen": -3.390625,
+      "logits/rejected": -3.359375,
+      "logps/chosen": -338.0,
+      "logps/rejected": -235.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.011220196353436185,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6949604749679565,
+      "eval_rewards/accuracies": 0.1808510571718216,
+      "eval_rewards/chosen": -0.01025390625,
+      "eval_rewards/margins": -0.0220947265625,
+      "eval_rewards/rejected": 0.0118408203125,
+      "eval_runtime": 64.4795,
+      "eval_samples_per_second": 23.062,
+      "eval_steps_per_second": 0.729,
+      "step": 8
+    },
+    {
+      "epoch": 0.014025245441795231,
+      "grad_norm": 110.74397308714492,
+      "learning_rate": 1.3888888888888889e-08,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -336.0,
+      "logps/rejected": -258.0,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.1944444477558136,
+      "rewards/chosen": 0.002777099609375,
+      "rewards/margins": -0.0015869140625,
+      "rewards/rejected": 0.00433349609375,
+      "step": 10
+    },
+    {
+      "epoch": 0.02244039270687237,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6922927498817444,
+      "eval_rewards/accuracies": 0.1808510571718216,
+      "eval_rewards/chosen": -0.00732421875,
+      "eval_rewards/margins": -0.0155029296875,
+      "eval_rewards/rejected": 0.0081787109375,
+      "eval_runtime": 65.982,
+      "eval_samples_per_second": 22.536,
+      "eval_steps_per_second": 0.712,
+      "step": 16
+    },
+    {
+      "epoch": 0.028050490883590462,
+      "grad_norm": 116.98345029866964,
+      "learning_rate": 2.7777777777777777e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.265625,
+      "logps/chosen": -340.0,
+      "logps/rejected": -268.0,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": 0.005950927734375,
+      "rewards/margins": 0.0093994140625,
+      "rewards/rejected": -0.003448486328125,
+      "step": 20
+    },
+    {
+      "epoch": 0.033660589060308554,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6925293207168579,
+      "eval_rewards/accuracies": 0.15425531566143036,
+      "eval_rewards/chosen": -0.0118408203125,
+      "eval_rewards/margins": -0.0240478515625,
+      "eval_rewards/rejected": 0.01226806640625,
+      "eval_runtime": 66.0226,
+      "eval_samples_per_second": 22.523,
+      "eval_steps_per_second": 0.712,
+      "step": 24
+    },
+    {
+      "epoch": 0.04207573632538569,
+      "grad_norm": 113.34325031998505,
+      "learning_rate": 4.166666666666667e-08,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -286.0,
+      "logps/rejected": -249.0,
+      "loss": 0.6906,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": 0.01556396484375,
+      "rewards/margins": 0.0181884765625,
+      "rewards/rejected": -0.00250244140625,
+      "step": 30
+    },
+    {
+      "epoch": 0.04488078541374474,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6905698776245117,
+      "eval_rewards/accuracies": 0.18617020547389984,
+      "eval_rewards/chosen": -0.019287109375,
+      "eval_rewards/margins": -0.012939453125,
+      "eval_rewards/rejected": -0.006317138671875,
+      "eval_runtime": 67.4727,
+      "eval_samples_per_second": 22.039,
+      "eval_steps_per_second": 0.697,
+      "step": 32
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "grad_norm": 246.23847197877535,
+      "learning_rate": 5.5555555555555555e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -304.0,
+      "logps/rejected": -258.0,
+      "loss": 0.6878,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.01019287109375,
+      "rewards/margins": 0.017822265625,
+      "rewards/rejected": -0.0279541015625,
+      "step": 40
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6839801669120789,
+      "eval_rewards/accuracies": 0.31382977962493896,
+      "eval_rewards/chosen": -0.023681640625,
+      "eval_rewards/margins": 0.00543212890625,
+      "eval_rewards/rejected": -0.029052734375,
+      "eval_runtime": 65.8392,
+      "eval_samples_per_second": 22.585,
+      "eval_steps_per_second": 0.714,
+      "step": 40
+    },
+    {
+      "epoch": 0.06732117812061711,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6773921847343445,
+      "eval_rewards/accuracies": 0.3989361822605133,
+      "eval_rewards/chosen": -0.04931640625,
+      "eval_rewards/margins": 0.023193359375,
+      "eval_rewards/rejected": -0.072265625,
+      "eval_runtime": 66.9158,
+      "eval_samples_per_second": 22.222,
+      "eval_steps_per_second": 0.702,
+      "step": 48
+    },
+    {
+      "epoch": 0.07012622720897616,
+      "grad_norm": 103.3289816245663,
+      "learning_rate": 6.944444444444444e-08,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -380.0,
+      "logps/rejected": -268.0,
+      "loss": 0.6792,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.0203857421875,
+      "rewards/margins": 0.02685546875,
+      "rewards/rejected": -0.04736328125,
+      "step": 50
+    },
+    {
+      "epoch": 0.0785413744740533,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6660000085830688,
+      "eval_rewards/accuracies": 0.49468085169792175,
+      "eval_rewards/chosen": -0.06298828125,
+      "eval_rewards/margins": 0.05029296875,
+      "eval_rewards/rejected": -0.11328125,
+      "eval_runtime": 65.4928,
+      "eval_samples_per_second": 22.705,
+      "eval_steps_per_second": 0.718,
+      "step": 56
+    },
+    {
+      "epoch": 0.08415147265077139,
+      "grad_norm": 113.40585826604065,
+      "learning_rate": 8.333333333333334e-08,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.296875,
+      "logps/chosen": -316.0,
+      "logps/rejected": -260.0,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.0634765625,
+      "rewards/margins": 0.0791015625,
+      "rewards/rejected": -0.142578125,
+      "step": 60
+    },
+    {
+      "epoch": 0.08976157082748948,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -278.0,
+      "eval_loss": 0.6500970125198364,
+      "eval_rewards/accuracies": 0.5797872543334961,
+      "eval_rewards/chosen": -0.08349609375,
+      "eval_rewards/margins": 0.10546875,
+      "eval_rewards/rejected": -0.1884765625,
+      "eval_runtime": 65.722,
+      "eval_samples_per_second": 22.626,
+      "eval_steps_per_second": 0.715,
+      "step": 64
+    },
+    {
+      "epoch": 0.09817671809256662,
+      "grad_norm": 125.25207176339313,
+      "learning_rate": 9.722222222222221e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -280.0,
+      "logps/rejected": -346.0,
+      "loss": 0.6523,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.10205078125,
+      "rewards/margins": 0.07373046875,
+      "rewards/rejected": -0.17578125,
+      "step": 70
+    },
+    {
+      "epoch": 0.10098176718092566,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -278.0,
+      "eval_loss": 0.6328428387641907,
+      "eval_rewards/accuracies": 0.6223404407501221,
+      "eval_rewards/chosen": -0.11865234375,
+      "eval_rewards/margins": 0.1533203125,
+      "eval_rewards/rejected": -0.271484375,
+      "eval_runtime": 65.7968,
+      "eval_samples_per_second": 22.6,
+      "eval_steps_per_second": 0.714,
+      "step": 72
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "grad_norm": 94.45964439444543,
+      "learning_rate": 9.996157197797842e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -336.0,
+      "logps/rejected": -314.0,
+      "loss": 0.6284,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1650390625,
+      "rewards/margins": 0.162109375,
+      "rewards/rejected": -0.328125,
+      "step": 80
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -278.0,
+      "eval_loss": 0.616112470626831,
+      "eval_rewards/accuracies": 0.6382978558540344,
+      "eval_rewards/chosen": -0.15625,
+      "eval_rewards/margins": 0.1923828125,
+      "eval_rewards/rejected": -0.349609375,
+      "eval_runtime": 65.3583,
+      "eval_samples_per_second": 22.752,
+      "eval_steps_per_second": 0.719,
+      "step": 80
+    },
+    {
+      "epoch": 0.12342215988779803,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -280.0,
+      "eval_loss": 0.5973905324935913,
+      "eval_rewards/accuracies": 0.664893627166748,
+      "eval_rewards/chosen": -0.1748046875,
+      "eval_rewards/margins": 0.275390625,
+      "eval_rewards/rejected": -0.451171875,
+      "eval_runtime": 65.8508,
+      "eval_samples_per_second": 22.581,
+      "eval_steps_per_second": 0.714,
+      "step": 88
+    },
+    {
+      "epoch": 0.12622720897615708,
+      "grad_norm": 78.27183539240967,
+      "learning_rate": 9.980555936859367e-08,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.25,
+      "logps/chosen": -328.0,
+      "logps/rejected": -274.0,
+      "loss": 0.6,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.1943359375,
+      "rewards/margins": 0.2470703125,
+      "rewards/rejected": -0.44140625,
+      "step": 90
+    },
+    {
+      "epoch": 0.13464235624123422,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -280.0,
+      "eval_loss": 0.5827037692070007,
+      "eval_rewards/accuracies": 0.6968085169792175,
+      "eval_rewards/chosen": -0.201171875,
+      "eval_rewards/margins": 0.3359375,
+      "eval_rewards/rejected": -0.5390625,
+      "eval_runtime": 65.279,
+      "eval_samples_per_second": 22.779,
+      "eval_steps_per_second": 0.72,
+      "step": 96
+    },
+    {
+      "epoch": 0.1402524544179523,
+      "grad_norm": 71.98735558309906,
+      "learning_rate": 9.952993480848836e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -330.0,
+      "logps/rejected": -280.0,
+      "loss": 0.587,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.22265625,
+      "rewards/margins": 0.42578125,
+      "rewards/rejected": -0.6484375,
+      "step": 100
+    },
+    {
+      "epoch": 0.1458625525946704,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -282.0,
+      "eval_loss": 0.5645347833633423,
+      "eval_rewards/accuracies": 0.686170220375061,
+      "eval_rewards/chosen": -0.23046875,
+      "eval_rewards/margins": 0.396484375,
+      "eval_rewards/rejected": -0.62890625,
+      "eval_runtime": 65.996,
+      "eval_samples_per_second": 22.532,
+      "eval_steps_per_second": 0.712,
+      "step": 104
+    },
+    {
+      "epoch": 0.15427769985974754,
+      "grad_norm": 78.26114363449469,
+      "learning_rate": 9.913536023162564e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.25,
+      "logps/chosen": -286.0,
+      "logps/rejected": -274.0,
+      "loss": 0.5574,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.318359375,
+      "rewards/margins": 0.431640625,
+      "rewards/rejected": -0.75,
+      "step": 110
+    },
+    {
+      "epoch": 0.1570827489481066,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -282.0,
+      "eval_loss": 0.5499235391616821,
+      "eval_rewards/accuracies": 0.6968085169792175,
+      "eval_rewards/chosen": -0.30078125,
+      "eval_rewards/margins": 0.46875,
+      "eval_rewards/rejected": -0.76953125,
+      "eval_runtime": 65.2991,
+      "eval_samples_per_second": 22.772,
+      "eval_steps_per_second": 0.72,
+      "step": 112
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "grad_norm": 72.42183847763702,
+      "learning_rate": 9.862278323974797e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -300.0,
+      "loss": 0.5587,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.37109375,
+      "rewards/margins": 0.478515625,
+      "rewards/rejected": -0.84765625,
+      "step": 120
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -284.0,
+      "eval_loss": 0.5400981903076172,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.53125,
+      "eval_rewards/rejected": -0.85546875,
+      "eval_runtime": 65.1167,
+      "eval_samples_per_second": 22.836,
+      "eval_steps_per_second": 0.722,
+      "step": 120
+    },
+    {
+      "epoch": 0.17952314165497896,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -284.0,
+      "eval_loss": 0.5262324810028076,
+      "eval_rewards/accuracies": 0.7021276354789734,
+      "eval_rewards/chosen": -0.29296875,
+      "eval_rewards/margins": 0.59765625,
+      "eval_rewards/rejected": -0.890625,
+      "eval_runtime": 65.3734,
+      "eval_samples_per_second": 22.746,
+      "eval_steps_per_second": 0.719,
+      "step": 128
+    },
+    {
+      "epoch": 0.182328190743338,
+      "grad_norm": 69.32293883376875,
+      "learning_rate": 9.79934348266374e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -356.0,
+      "logps/rejected": -290.0,
+      "loss": 0.5179,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.296875,
+      "rewards/margins": 0.64453125,
+      "rewards/rejected": -0.94140625,
+      "step": 130
+    },
+    {
+      "epoch": 0.19074333800841514,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -284.0,
+      "eval_loss": 0.5165219902992249,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.2373046875,
+      "eval_rewards/margins": 0.6640625,
+      "eval_rewards/rejected": -0.8984375,
+      "eval_runtime": 65.3829,
+      "eval_samples_per_second": 22.743,
+      "eval_steps_per_second": 0.719,
+      "step": 136
+    },
+    {
+      "epoch": 0.19635343618513323,
+      "grad_norm": 72.06276172463413,
+      "learning_rate": 9.724882642178755e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -300.0,
+      "logps/rejected": -268.0,
+      "loss": 0.5179,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.375,
+      "rewards/margins": 0.6171875,
+      "rewards/rejected": -0.9921875,
+      "step": 140
+    },
+    {
+      "epoch": 0.20196353436185133,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.5107862949371338,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.26171875,
+      "eval_rewards/margins": 0.7109375,
+      "eval_rewards/rejected": -0.96875,
+      "eval_runtime": 65.4062,
+      "eval_samples_per_second": 22.735,
+      "eval_steps_per_second": 0.719,
+      "step": 144
+    },
+    {
+      "epoch": 0.21037868162692847,
+      "grad_norm": 64.86109370298178,
+      "learning_rate": 9.63907462605873e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -308.0,
+      "logps/rejected": -292.0,
+      "loss": 0.5068,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.357421875,
+      "rewards/margins": 0.89453125,
+      "rewards/rejected": -1.25,
+      "step": 150
+    },
+    {
+      "epoch": 0.2131837307152875,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.5037102699279785,
+      "eval_rewards/accuracies": 0.7180851101875305,
+      "eval_rewards/chosen": -0.30859375,
+      "eval_rewards/margins": 0.75390625,
+      "eval_rewards/rejected": -1.0625,
+      "eval_runtime": 65.5244,
+      "eval_samples_per_second": 22.694,
+      "eval_steps_per_second": 0.717,
+      "step": 152
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "grad_norm": 50.81633979426016,
+      "learning_rate": 9.542125508973355e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -358.0,
+      "logps/rejected": -358.0,
+      "loss": 0.4933,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.201171875,
+      "rewards/margins": 0.90234375,
+      "rewards/rejected": -1.1015625,
+      "step": 160
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.49500787258148193,
+      "eval_rewards/accuracies": 0.7393617033958435,
+      "eval_rewards/chosen": -0.294921875,
+      "eval_rewards/margins": 0.8203125,
+      "eval_rewards/rejected": -1.1171875,
+      "eval_runtime": 65.1622,
+      "eval_samples_per_second": 22.82,
+      "eval_steps_per_second": 0.721,
+      "step": 160
+    },
+    {
+      "epoch": 0.23562412342215988,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.4925914704799652,
+      "eval_rewards/accuracies": 0.75,
+      "eval_rewards/chosen": -0.19921875,
+      "eval_rewards/margins": 0.84375,
+      "eval_rewards/rejected": -1.0390625,
+      "eval_runtime": 65.2914,
+      "eval_samples_per_second": 22.775,
+      "eval_steps_per_second": 0.72,
+      "step": 168
+    },
+    {
+      "epoch": 0.23842917251051893,
+      "grad_norm": 87.22930980359784,
+      "learning_rate": 9.434268121818663e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -344.0,
+      "logps/rejected": -288.0,
+      "loss": 0.4954,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.26171875,
+      "rewards/margins": 1.015625,
+      "rewards/rejected": -1.2734375,
+      "step": 170
+    },
+    {
+      "epoch": 0.24684431977559607,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.4865454137325287,
+      "eval_rewards/accuracies": 0.7606382966041565,
+      "eval_rewards/chosen": -0.1826171875,
+      "eval_rewards/margins": 0.890625,
+      "eval_rewards/rejected": -1.078125,
+      "eval_runtime": 65.5734,
+      "eval_samples_per_second": 22.677,
+      "eval_steps_per_second": 0.717,
+      "step": 176
+    },
+    {
+      "epoch": 0.25245441795231416,
+      "grad_norm": 78.03565232816878,
+      "learning_rate": 9.315761492555401e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.25,
+      "logps/chosen": -386.0,
+      "logps/rejected": -360.0,
+      "loss": 0.4906,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.0189208984375,
+      "rewards/margins": 1.1796875,
+      "rewards/rejected": -1.203125,
+      "step": 180
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.4824244976043701,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.197265625,
+      "eval_rewards/margins": 0.93359375,
+      "eval_rewards/rejected": -1.1328125,
+      "eval_runtime": 65.3742,
+      "eval_samples_per_second": 22.746,
+      "eval_steps_per_second": 0.719,
+      "step": 184
+    },
+    {
+      "epoch": 0.2664796633941094,
+      "grad_norm": 61.54814388454443,
+      "learning_rate": 9.186890224133106e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -306.0,
+      "logps/rejected": -318.0,
+      "loss": 0.4883,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.373046875,
+      "rewards/margins": 0.93359375,
+      "rewards/rejected": -1.3125,
+      "step": 190
+    },
+    {
+      "epoch": 0.26928471248246844,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.4783298075199127,
+      "eval_rewards/accuracies": 0.7553191781044006,
+      "eval_rewards/chosen": -0.4375,
+      "eval_rewards/margins": 1.0,
+      "eval_rewards/rejected": -1.4375,
+      "eval_runtime": 65.1766,
+      "eval_samples_per_second": 22.815,
+      "eval_steps_per_second": 0.721,
+      "step": 192
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "grad_norm": 81.93957887897224,
+      "learning_rate": 9.047963810993828e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -356.0,
+      "logps/rejected": -280.0,
+      "loss": 0.4736,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4921875,
+      "rewards/margins": 1.3125,
+      "rewards/rejected": -1.8046875,
+      "step": 200
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.4756816625595093,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.5234375,
+      "eval_rewards/margins": 1.0390625,
+      "eval_rewards/rejected": -1.5625,
+      "eval_runtime": 65.5039,
+      "eval_samples_per_second": 22.701,
+      "eval_steps_per_second": 0.718,
+      "step": 200
+    },
+    {
+      "epoch": 0.2917251051893408,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.4704132676124573,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.373046875,
+      "eval_rewards/margins": 1.0703125,
+      "eval_rewards/rejected": -1.4453125,
+      "eval_runtime": 65.4513,
+      "eval_samples_per_second": 22.719,
+      "eval_steps_per_second": 0.718,
+      "step": 208
+    },
+    {
+      "epoch": 0.29453015427769985,
+      "grad_norm": 57.13116236627723,
+      "learning_rate": 8.899315895796999e-08,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -270.0,
+      "logps/rejected": -292.0,
+      "loss": 0.4702,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.6015625,
+      "rewards/margins": 1.0078125,
+      "rewards/rejected": -1.609375,
+      "step": 210
+    },
+    {
+      "epoch": 0.302945301542777,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -288.0,
+      "eval_loss": 0.46843329071998596,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.25,
+      "eval_rewards/margins": 1.078125,
+      "eval_rewards/rejected": -1.328125,
+      "eval_runtime": 65.4674,
+      "eval_samples_per_second": 22.714,
+      "eval_steps_per_second": 0.718,
+      "step": 216
+    },
+    {
+      "epoch": 0.3085553997194951,
+      "grad_norm": 69.71292747496362,
+      "learning_rate": 8.741303468150459e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -382.0,
+      "logps/rejected": -332.0,
+      "loss": 0.4507,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.341796875,
+      "rewards/margins": 0.9921875,
+      "rewards/rejected": -1.3359375,
+      "step": 220
+    },
+    {
+      "epoch": 0.3141654978962132,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -288.0,
+      "eval_loss": 0.46615517139434814,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.169921875,
+      "eval_rewards/margins": 1.1015625,
+      "eval_rewards/rejected": -1.2734375,
+      "eval_runtime": 67.1237,
+      "eval_samples_per_second": 22.153,
+      "eval_steps_per_second": 0.7,
+      "step": 224
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 78.42895119216206,
+      "learning_rate": 8.574306007271956e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -336.0,
+      "logps/rejected": -292.0,
+      "loss": 0.4378,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.259765625,
+      "rewards/margins": 1.1953125,
+      "rewards/rejected": -1.4609375,
+      "step": 230
+    },
+    {
+      "epoch": 0.32538569424964936,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.46082067489624023,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.3046875,
+      "eval_rewards/margins": 1.15625,
+      "eval_rewards/rejected": -1.4609375,
+      "eval_runtime": 65.4562,
+      "eval_samples_per_second": 22.717,
+      "eval_steps_per_second": 0.718,
+      "step": 232
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "grad_norm": 66.85599746105599,
+      "learning_rate": 8.398724570640106e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -338.0,
+      "logps/rejected": -296.0,
+      "loss": 0.4264,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.404296875,
+      "rewards/margins": 1.140625,
+      "rewards/rejected": -1.5390625,
+      "step": 240
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.45898962020874023,
+      "eval_rewards/accuracies": 0.7606382966041565,
+      "eval_rewards/chosen": -0.380859375,
+      "eval_rewards/margins": 1.1875,
+      "eval_rewards/rejected": -1.5703125,
+      "eval_runtime": 65.7371,
+      "eval_samples_per_second": 22.62,
+      "eval_steps_per_second": 0.715,
+      "step": 240
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.45564574003219604,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.3984375,
+      "eval_rewards/margins": 1.21875,
+      "eval_rewards/rejected": -1.6171875,
+      "eval_runtime": 65.7109,
+      "eval_samples_per_second": 22.629,
+      "eval_steps_per_second": 0.715,
+      "step": 248
+    },
+    {
+      "epoch": 0.3506311360448808,
+      "grad_norm": 73.71381819657365,
+      "learning_rate": 8.214980830823428e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -290.0,
+      "logps/rejected": -288.0,
+      "loss": 0.4364,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.400390625,
+      "rewards/margins": 1.5,
+      "rewards/rejected": -1.8984375,
+      "step": 250
+    },
+    {
+      "epoch": 0.3590462833099579,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4549691081047058,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.341796875,
+      "eval_rewards/margins": 1.25,
+      "eval_rewards/rejected": -1.59375,
+      "eval_runtime": 66.0895,
+      "eval_samples_per_second": 22.5,
+      "eval_steps_per_second": 0.711,
+      "step": 256
+    },
+    {
+      "epoch": 0.364656381486676,
+      "grad_norm": 75.17550063858648,
+      "learning_rate": 8.02351606280068e-08,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -358.0,
+      "logps/rejected": -296.0,
+      "loss": 0.4283,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5,
+      "rewards/margins": 1.5859375,
+      "rewards/rejected": -2.09375,
+      "step": 260
+    },
+    {
+      "epoch": 0.3702664796633941,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4524915814399719,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.419921875,
+      "eval_rewards/margins": 1.28125,
+      "eval_rewards/rejected": -1.703125,
+      "eval_runtime": 65.5698,
+      "eval_samples_per_second": 22.678,
+      "eval_steps_per_second": 0.717,
+      "step": 264
+    },
+    {
+      "epoch": 0.37868162692847124,
+      "grad_norm": 98.59860026556943,
+      "learning_rate": 7.824790084204426e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -358.0,
+      "logps/rejected": -276.0,
+      "loss": 0.4545,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.318359375,
+      "rewards/margins": 1.3203125,
+      "rewards/rejected": -1.640625,
+      "step": 270
+    },
+    {
+      "epoch": 0.3814866760168303,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.4529261291027069,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.1640625,
+      "eval_rewards/margins": 1.2421875,
+      "eval_rewards/rejected": -1.40625,
+      "eval_runtime": 66.1533,
+      "eval_samples_per_second": 22.478,
+      "eval_steps_per_second": 0.71,
+      "step": 272
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "grad_norm": 66.29892281108927,
+      "learning_rate": 7.619280151032996e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -298.0,
+      "logps/rejected": -284.0,
+      "loss": 0.4697,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.2451171875,
+      "rewards/margins": 1.2109375,
+      "rewards/rejected": -1.453125,
+      "step": 280
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -288.0,
+      "eval_loss": 0.4549205005168915,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.018798828125,
+      "eval_rewards/margins": 1.21875,
+      "eval_rewards/rejected": -1.234375,
+      "eval_runtime": 65.9803,
+      "eval_samples_per_second": 22.537,
+      "eval_steps_per_second": 0.712,
+      "step": 280
+    },
+    {
+      "epoch": 0.40392706872370265,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.45066002011299133,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.2109375,
+      "eval_rewards/margins": 1.2578125,
+      "eval_rewards/rejected": -1.46875,
+      "eval_runtime": 66.0022,
+      "eval_samples_per_second": 22.53,
+      "eval_steps_per_second": 0.712,
+      "step": 288
+    },
+    {
+      "epoch": 0.4067321178120617,
+      "grad_norm": 67.98366742580774,
+      "learning_rate": 7.407479811482827e-08,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -360.0,
+      "logps/rejected": -284.0,
+      "loss": 0.4755,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.431640625,
+      "rewards/margins": 1.2421875,
+      "rewards/rejected": -1.671875,
+      "step": 290
+    },
+    {
+      "epoch": 0.41514726507713884,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.44806107878685,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.2353515625,
+      "eval_rewards/margins": 1.265625,
+      "eval_rewards/rejected": -1.5,
+      "eval_runtime": 65.9143,
+      "eval_samples_per_second": 22.56,
+      "eval_steps_per_second": 0.713,
+      "step": 296
+    },
+    {
+      "epoch": 0.42075736325385693,
+      "grad_norm": 140.68479754222105,
+      "learning_rate": 7.189897720653835e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -380.0,
+      "logps/rejected": -328.0,
+      "loss": 0.4445,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.171875,
+      "rewards/margins": 1.40625,
+      "rewards/rejected": -1.578125,
+      "step": 300
+    },
+    {
+      "epoch": 0.426367461430575,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.44621869921684265,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.23046875,
+      "eval_rewards/margins": 1.296875,
+      "eval_rewards/rejected": -1.5234375,
+      "eval_runtime": 65.9513,
+      "eval_samples_per_second": 22.547,
+      "eval_steps_per_second": 0.713,
+      "step": 304
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 73.1968133471242,
+      "learning_rate": 6.967056418974356e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -310.0,
+      "logps/rejected": -246.0,
+      "loss": 0.421,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.375,
+      "rewards/margins": 1.2421875,
+      "rewards/rejected": -1.6171875,
+      "step": 310
+    },
+    {
+      "epoch": 0.4375876577840112,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4431565999984741,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.41796875,
+      "eval_rewards/margins": 1.34375,
+      "eval_rewards/rejected": -1.765625,
+      "eval_runtime": 65.874,
+      "eval_samples_per_second": 22.573,
+      "eval_steps_per_second": 0.713,
+      "step": 312
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "grad_norm": 172.36782031667585,
+      "learning_rate": 6.739491077279388e-08,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.125,
+      "logps/chosen": -292.0,
+      "logps/rejected": -286.0,
+      "loss": 0.4476,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 1.359375,
+      "rewards/rejected": -2.140625,
+      "step": 320
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -328.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4442501664161682,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.546875,
+      "eval_rewards/margins": 1.3671875,
+      "eval_rewards/rejected": -1.9140625,
+      "eval_runtime": 65.5452,
+      "eval_samples_per_second": 22.687,
+      "eval_steps_per_second": 0.717,
+      "step": 320
+    },
+    {
+      "epoch": 0.4600280504908836,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.44039374589920044,
+      "eval_rewards/accuracies": 0.8085106611251831,
+      "eval_rewards/chosen": -0.33984375,
+      "eval_rewards/margins": 1.375,
+      "eval_rewards/rejected": -1.7109375,
+      "eval_runtime": 65.672,
+      "eval_samples_per_second": 22.643,
+      "eval_steps_per_second": 0.716,
+      "step": 328
+    },
+    {
+      "epoch": 0.4628330995792426,
+      "grad_norm": 83.88811282827044,
+      "learning_rate": 6.507748211555935e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -290.0,
+      "logps/rejected": -292.0,
+      "loss": 0.4337,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.75,
+      "rewards/margins": 1.4609375,
+      "rewards/rejected": -2.21875,
+      "step": 330
+    },
+    {
+      "epoch": 0.47124824684431976,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.44471773505210876,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.058349609375,
+      "eval_rewards/margins": 1.328125,
+      "eval_rewards/rejected": -1.3828125,
+      "eval_runtime": 65.5515,
+      "eval_samples_per_second": 22.684,
+      "eval_steps_per_second": 0.717,
+      "step": 336
+    },
+    {
+      "epoch": 0.47685834502103785,
+      "grad_norm": 64.67334453503696,
+      "learning_rate": 6.272384370442064e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -360.0,
+      "logps/rejected": -290.0,
+      "loss": 0.4125,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.0791015625,
+      "rewards/margins": 1.4765625,
+      "rewards/rejected": -1.5546875,
+      "step": 340
+    },
+    {
+      "epoch": 0.48246844319775595,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.44078487157821655,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.0927734375,
+      "eval_rewards/margins": 1.3671875,
+      "eval_rewards/rejected": -1.4609375,
+      "eval_runtime": 65.3283,
+      "eval_samples_per_second": 22.762,
+      "eval_steps_per_second": 0.719,
+      "step": 344
+    },
+    {
+      "epoch": 0.4908835904628331,
+      "grad_norm": 63.844275581376095,
+      "learning_rate": 6.033964798631775e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -330.0,
+      "logps/rejected": -274.0,
+      "loss": 0.4265,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.1259765625,
+      "rewards/margins": 1.578125,
+      "rewards/rejected": -1.703125,
+      "step": 350
+    },
+    {
+      "epoch": 0.49368863955119213,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4373743236064911,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.35546875,
+      "eval_rewards/margins": 1.4296875,
+      "eval_rewards/rejected": -1.78125,
+      "eval_runtime": 65.5077,
+      "eval_samples_per_second": 22.7,
+      "eval_steps_per_second": 0.717,
+      "step": 352
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "grad_norm": 82.19625916645252,
+      "learning_rate": 5.793062079395602e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.25,
+      "logps/chosen": -348.0,
+      "logps/rejected": -268.0,
+      "loss": 0.4396,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.51953125,
+      "rewards/margins": 1.40625,
+      "rewards/rejected": -1.921875,
+      "step": 360
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -328.0,
+      "eval_logps/rejected": -296.0,
+      "eval_loss": 0.43835678696632385,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.53125,
+      "eval_rewards/margins": 1.4375,
+      "eval_rewards/rejected": -1.96875,
+      "eval_runtime": 65.5011,
+      "eval_samples_per_second": 22.702,
+      "eval_steps_per_second": 0.718,
+      "step": 360
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.43556153774261475,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.38671875,
+      "eval_rewards/margins": 1.421875,
+      "eval_rewards/rejected": -1.8125,
+      "eval_runtime": 65.9436,
+      "eval_samples_per_second": 22.55,
+      "eval_steps_per_second": 0.713,
+      "step": 368
+    },
+    {
+      "epoch": 0.5189340813464236,
+      "grad_norm": 66.06160245832213,
+      "learning_rate": 5.550254759477064e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -346.0,
+      "logps/rejected": -274.0,
+      "loss": 0.4502,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.376953125,
+      "rewards/margins": 1.78125,
+      "rewards/rejected": -2.15625,
+      "step": 370
+    },
+    {
+      "epoch": 0.5273492286115007,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.43542972207069397,
+      "eval_rewards/accuracies": 0.8085106611251831,
+      "eval_rewards/chosen": -0.30078125,
+      "eval_rewards/margins": 1.375,
+      "eval_rewards/rejected": -1.6796875,
+      "eval_runtime": 66.0206,
+      "eval_samples_per_second": 22.523,
+      "eval_steps_per_second": 0.712,
+      "step": 376
+    },
+    {
+      "epoch": 0.5329593267882188,
+      "grad_norm": 91.0323899334018,
+      "learning_rate": 5.3061259596673514e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -348.0,
+      "logps/rejected": -328.0,
+      "loss": 0.466,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.5078125,
+      "rewards/margins": 1.265625,
+      "rewards/rejected": -1.7734375,
+      "step": 380
+    },
+    {
+      "epoch": 0.5385694249649369,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4354216158390045,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.3828125,
+      "eval_rewards/margins": 1.3984375,
+      "eval_rewards/rejected": -1.78125,
+      "eval_runtime": 66.7558,
+      "eval_samples_per_second": 22.275,
+      "eval_steps_per_second": 0.704,
+      "step": 384
+    },
+    {
+      "epoch": 0.5469845722300141,
+      "grad_norm": 61.68556881860422,
+      "learning_rate": 5.061261974395087e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -312.0,
+      "logps/rejected": -256.0,
+      "loss": 0.431,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.416015625,
+      "rewards/margins": 1.90625,
+      "rewards/rejected": -2.328125,
+      "step": 390
+    },
+    {
+      "epoch": 0.5497896213183731,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.43359655141830444,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.443359375,
+      "eval_rewards/margins": 1.4140625,
+      "eval_rewards/rejected": -1.859375,
+      "eval_runtime": 65.6621,
+      "eval_samples_per_second": 22.646,
+      "eval_steps_per_second": 0.716,
+      "step": 392
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "grad_norm": 53.778933302697915,
+      "learning_rate": 4.81625086369435e-08,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -318.0,
+      "logps/rejected": -264.0,
+      "loss": 0.4341,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.7109375,
+      "rewards/margins": 1.390625,
+      "rewards/rejected": -2.109375,
+      "step": 400
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4345087707042694,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.40625,
+      "eval_rewards/margins": 1.4140625,
+      "eval_rewards/rejected": -1.828125,
+      "eval_runtime": 66.1009,
+      "eval_samples_per_second": 22.496,
+      "eval_steps_per_second": 0.711,
+      "step": 400
+    },
+    {
+      "epoch": 0.5722300140252454,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.43394970893859863,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.314453125,
+      "eval_rewards/margins": 1.40625,
+      "eval_rewards/rejected": -1.71875,
+      "eval_runtime": 65.4213,
+      "eval_samples_per_second": 22.73,
+      "eval_steps_per_second": 0.718,
+      "step": 408
+    },
+    {
+      "epoch": 0.5750350631136045,
+      "grad_norm": 62.4907717956933,
+      "learning_rate": 4.571681040932457e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -378.0,
+      "logps/rejected": -306.0,
+      "loss": 0.426,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.32421875,
+      "rewards/margins": 1.578125,
+      "rewards/rejected": -1.90625,
+      "step": 410
+    },
+    {
+      "epoch": 0.5834502103786816,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.43257737159729004,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.3125,
+      "eval_rewards/margins": 1.421875,
+      "eval_rewards/rejected": -1.7265625,
+      "eval_runtime": 66.3746,
+      "eval_samples_per_second": 22.403,
+      "eval_steps_per_second": 0.708,
+      "step": 416
+    },
+    {
+      "epoch": 0.5890603085553997,
+      "grad_norm": 62.937437723211396,
+      "learning_rate": 4.3281398596891846e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -288.0,
+      "logps/rejected": -260.0,
+      "loss": 0.4277,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.296875,
+      "rewards/margins": 1.6171875,
+      "rewards/rejected": -1.9140625,
+      "step": 420
+    },
+    {
+      "epoch": 0.5946704067321178,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.43171462416648865,
+      "eval_rewards/accuracies": 0.8085106611251831,
+      "eval_rewards/chosen": -0.326171875,
+      "eval_rewards/margins": 1.421875,
+      "eval_rewards/rejected": -1.75,
+      "eval_runtime": 65.4838,
+      "eval_samples_per_second": 22.708,
+      "eval_steps_per_second": 0.718,
+      "step": 424
+    },
+    {
+      "epoch": 0.603085553997195,
+      "grad_norm": 89.54830902382459,
+      "learning_rate": 4.0862122031811584e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -2.953125,
+      "logps/chosen": -312.0,
+      "logps/rejected": -304.0,
+      "loss": 0.445,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.23828125,
+      "rewards/margins": 1.5625,
+      "rewards/rejected": -1.796875,
+      "step": 430
+    },
+    {
+      "epoch": 0.605890603085554,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4321427047252655,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.21875,
+      "eval_rewards/margins": 1.421875,
+      "eval_rewards/rejected": -1.640625,
+      "eval_runtime": 65.7301,
+      "eval_samples_per_second": 22.623,
+      "eval_steps_per_second": 0.715,
+      "step": 432
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "grad_norm": 82.08990155961503,
+      "learning_rate": 3.84647907961901e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -322.0,
+      "logps/rejected": -334.0,
+      "loss": 0.4412,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.333984375,
+      "rewards/margins": 1.15625,
+      "rewards/rejected": -1.4921875,
+      "step": 440
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4320172667503357,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.1845703125,
+      "eval_rewards/margins": 1.3984375,
+      "eval_rewards/rejected": -1.5859375,
+      "eval_runtime": 66.0164,
+      "eval_samples_per_second": 22.525,
+      "eval_steps_per_second": 0.712,
+      "step": 440
+    },
+    {
+      "epoch": 0.6283309957924264,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4299759566783905,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.2451171875,
+      "eval_rewards/margins": 1.421875,
+      "eval_rewards/rejected": -1.671875,
+      "eval_runtime": 66.1844,
+      "eval_samples_per_second": 22.468,
+      "eval_steps_per_second": 0.71,
+      "step": 448
+    },
+    {
+      "epoch": 0.6311360448807855,
+      "grad_norm": 54.6576051569881,
+      "learning_rate": 3.609516226870659e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -336.0,
+      "logps/rejected": -312.0,
+      "loss": 0.4282,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.359375,
+      "rewards/margins": 1.4765625,
+      "rewards/rejected": -1.8359375,
+      "step": 450
+    },
+    {
+      "epoch": 0.6395511921458625,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4313638210296631,
+      "eval_rewards/accuracies": 0.8085106611251831,
+      "eval_rewards/chosen": -0.40234375,
+      "eval_rewards/margins": 1.4609375,
+      "eval_rewards/rejected": -1.8671875,
+      "eval_runtime": 65.756,
+      "eval_samples_per_second": 22.614,
+      "eval_steps_per_second": 0.715,
+      "step": 456
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 75.89258939808245,
+      "learning_rate": 3.375892729781754e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -318.0,
+      "logps/rejected": -290.0,
+      "loss": 0.42,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.3125,
+      "rewards/margins": 1.5546875,
+      "rewards/rejected": -1.8671875,
+      "step": 460
+    },
+    {
+      "epoch": 0.6507713884992987,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -296.0,
+      "eval_loss": 0.4304130971431732,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.5078125,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.9765625,
+      "eval_runtime": 65.9016,
+      "eval_samples_per_second": 22.564,
+      "eval_steps_per_second": 0.713,
+      "step": 464
+    },
+    {
+      "epoch": 0.6591865357643759,
+      "grad_norm": 82.31705053757307,
+      "learning_rate": 3.146169653473842e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -318.0,
+      "logps/rejected": -294.0,
+      "loss": 0.4284,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.63671875,
+      "rewards/margins": 1.6953125,
+      "rewards/rejected": -2.328125,
+      "step": 470
+    },
+    {
+      "epoch": 0.6619915848527349,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4293604791164398,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.478515625,
+      "eval_rewards/margins": 1.4609375,
+      "eval_rewards/rejected": -1.9453125,
+      "eval_runtime": 66.0134,
+      "eval_samples_per_second": 22.526,
+      "eval_steps_per_second": 0.712,
+      "step": 472
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "grad_norm": 69.30882554729901,
+      "learning_rate": 2.920898695902556e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -328.0,
+      "logps/rejected": -286.0,
+      "loss": 0.4203,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 1.3359375,
+      "rewards/rejected": -2.125,
+      "step": 480
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4268125593662262,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.33984375,
+      "eval_rewards/margins": 1.4609375,
+      "eval_rewards/rejected": -1.8046875,
+      "eval_runtime": 65.2864,
+      "eval_samples_per_second": 22.777,
+      "eval_steps_per_second": 0.72,
+      "step": 480
+    },
+    {
+      "epoch": 0.6844319775596073,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42859983444213867,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.31640625,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.78125,
+      "eval_runtime": 66.0519,
+      "eval_samples_per_second": 22.513,
+      "eval_steps_per_second": 0.712,
+      "step": 488
+    },
+    {
+      "epoch": 0.6872370266479664,
+      "grad_norm": 57.42106729522914,
+      "learning_rate": 2.7006208629117678e-08,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -278.0,
+      "logps/rejected": -237.0,
+      "loss": 0.4319,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.59765625,
+      "rewards/margins": 1.34375,
+      "rewards/rejected": -1.9453125,
+      "step": 490
+    },
+    {
+      "epoch": 0.6956521739130435,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4281717538833618,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.330078125,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.796875,
+      "eval_runtime": 69.6236,
+      "eval_samples_per_second": 21.358,
+      "eval_steps_per_second": 0.675,
+      "step": 496
+    },
+    {
+      "epoch": 0.7012622720897616,
+      "grad_norm": 72.40775681083477,
+      "learning_rate": 2.485865168965695e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -370.0,
+      "logps/rejected": -322.0,
+      "loss": 0.4182,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.244140625,
+      "rewards/margins": 2.09375,
+      "rewards/rejected": -2.34375,
+      "step": 500
+    },
+    {
+      "epoch": 0.7068723702664796,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42788633704185486,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.333984375,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.8046875,
+      "eval_runtime": 65.8819,
+      "eval_samples_per_second": 22.571,
+      "eval_steps_per_second": 0.713,
+      "step": 504
+    },
+    {
+      "epoch": 0.7152875175315568,
+      "grad_norm": 74.23499761342804,
+      "learning_rate": 2.2771473666792496e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -312.0,
+      "logps/rejected": -306.0,
+      "loss": 0.4257,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4453125,
+      "rewards/margins": 1.640625,
+      "rewards/rejected": -2.078125,
+      "step": 510
+    },
+    {
+      "epoch": 0.7180925666199158,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4266510009765625,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.8125,
+      "eval_runtime": 65.9573,
+      "eval_samples_per_second": 22.545,
+      "eval_steps_per_second": 0.713,
+      "step": 512
+    },
+    {
+      "epoch": 0.729312762973352,
+      "grad_norm": 54.15389809379034,
+      "learning_rate": 2.0749687081977334e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -326.0,
+      "logps/rejected": -296.0,
+      "loss": 0.4056,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.447265625,
+      "rewards/margins": 1.8359375,
+      "rewards/rejected": -2.28125,
+      "step": 520
+    },
+    {
+      "epoch": 0.729312762973352,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4269060790538788,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.341796875,
+      "eval_rewards/margins": 1.4765625,
+      "eval_rewards/rejected": -1.8125,
+      "eval_runtime": 65.7712,
+      "eval_samples_per_second": 22.609,
+      "eval_steps_per_second": 0.715,
+      "step": 520
+    },
+    {
+      "epoch": 0.7405329593267882,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4271133840084076,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.318359375,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.8046875,
+      "eval_runtime": 65.9518,
+      "eval_samples_per_second": 22.547,
+      "eval_steps_per_second": 0.713,
+      "step": 528
+    },
+    {
+      "epoch": 0.7433380084151473,
+      "grad_norm": 71.60857310722201,
+      "learning_rate": 1.8798147414005737e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -356.0,
+      "logps/rejected": -294.0,
+      "loss": 0.4276,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.5078125,
+      "rewards/margins": 1.7421875,
+      "rewards/rejected": -2.25,
+      "step": 530
+    },
+    {
+      "epoch": 0.7517531556802244,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4263402223587036,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.3125,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.78125,
+      "eval_runtime": 65.6441,
+      "eval_samples_per_second": 22.652,
+      "eval_steps_per_second": 0.716,
+      "step": 536
+    },
+    {
+      "epoch": 0.7573632538569425,
+      "grad_norm": 60.968537277216456,
+      "learning_rate": 1.692154143820063e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -356.0,
+      "logps/rejected": -306.0,
+      "loss": 0.4408,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.53125,
+      "rewards/margins": 1.40625,
+      "rewards/rejected": -1.9375,
+      "step": 540
+    },
+    {
+      "epoch": 0.7629733520336606,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.42715251445770264,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.298828125,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.765625,
+      "eval_runtime": 65.5555,
+      "eval_samples_per_second": 22.683,
+      "eval_steps_per_second": 0.717,
+      "step": 544
+    },
+    {
+      "epoch": 0.7713884992987378,
+      "grad_norm": 64.1026181494921,
+      "learning_rate": 1.5124375970755755e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -292.0,
+      "logps/rejected": -270.0,
+      "loss": 0.4314,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.45703125,
+      "rewards/margins": 1.4296875,
+      "rewards/rejected": -1.8828125,
+      "step": 550
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.4269976317882538,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.291015625,
+      "eval_rewards/margins": 1.46875,
+      "eval_rewards/rejected": -1.7578125,
+      "eval_runtime": 66.103,
+      "eval_samples_per_second": 22.495,
+      "eval_steps_per_second": 0.711,
+      "step": 552
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "grad_norm": 70.29004811629406,
+      "learning_rate": 1.3410967045263622e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -264.0,
+      "logps/rejected": -264.0,
+      "loss": 0.4293,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.3671875,
+      "rewards/margins": 1.5390625,
+      "rewards/rejected": -1.90625,
+      "step": 560
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42692992091178894,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.3046875,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.796875,
+      "eval_runtime": 65.7207,
+      "eval_samples_per_second": 22.626,
+      "eval_steps_per_second": 0.715,
+      "step": 560
+    },
+    {
+      "epoch": 0.7966339410939691,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42599254846572876,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.8203125,
+      "eval_runtime": 65.8527,
+      "eval_samples_per_second": 22.581,
+      "eval_steps_per_second": 0.714,
+      "step": 568
+    },
+    {
+      "epoch": 0.7994389901823282,
+      "grad_norm": 62.452272350609476,
+      "learning_rate": 1.1785429547422909e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -364.0,
+      "logps/rejected": -304.0,
+      "loss": 0.424,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.392578125,
+      "rewards/margins": 1.6953125,
+      "rewards/rejected": -2.09375,
+      "step": 570
+    },
+    {
+      "epoch": 0.8078541374474053,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4263537526130676,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.365234375,
+      "eval_rewards/margins": 1.5,
+      "eval_rewards/rejected": -1.859375,
+      "eval_runtime": 66.4186,
+      "eval_samples_per_second": 22.388,
+      "eval_steps_per_second": 0.708,
+      "step": 576
+    },
+    {
+      "epoch": 0.8134642356241234,
+      "grad_norm": 56.858626719122896,
+      "learning_rate": 1.0251667332818215e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -318.0,
+      "logps/rejected": -326.0,
+      "loss": 0.4268,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.494140625,
+      "rewards/margins": 1.5,
+      "rewards/rejected": -1.9921875,
+      "step": 580
+    },
+    {
+      "epoch": 0.8190743338008415,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42655226588249207,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.396484375,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.890625,
+      "eval_runtime": 65.8203,
+      "eval_samples_per_second": 22.592,
+      "eval_steps_per_second": 0.714,
+      "step": 584
+    },
+    {
+      "epoch": 0.8274894810659187,
+      "grad_norm": 65.20566506401748,
+      "learning_rate": 8.813363851505284e-09,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -322.0,
+      "logps/rejected": -298.0,
+      "loss": 0.4333,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.216796875,
+      "rewards/margins": 1.6484375,
+      "rewards/rejected": -1.859375,
+      "step": 590
+    },
+    {
+      "epoch": 0.8302945301542777,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4253907799720764,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.396484375,
+      "eval_rewards/margins": 1.5,
+      "eval_rewards/rejected": -1.8984375,
+      "eval_runtime": 66.3127,
+      "eval_samples_per_second": 22.424,
+      "eval_steps_per_second": 0.709,
+      "step": 592
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "grad_norm": 81.17849401894692,
+      "learning_rate": 7.473973301917124e-09,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -306.0,
+      "logps/rejected": -286.0,
+      "loss": 0.4258,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.44140625,
+      "rewards/margins": 1.5,
+      "rewards/rejected": -1.9375,
+      "step": 600
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42590516805648804,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.375,
+      "eval_rewards/margins": 1.5,
+      "eval_rewards/rejected": -1.875,
+      "eval_runtime": 65.2485,
+      "eval_samples_per_second": 22.79,
+      "eval_steps_per_second": 0.72,
+      "step": 600
+    },
+    {
+      "epoch": 0.85273492286115,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4256804287433624,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.3359375,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.828125,
+      "eval_runtime": 65.7464,
+      "eval_samples_per_second": 22.617,
+      "eval_steps_per_second": 0.715,
+      "step": 608
+    },
+    {
+      "epoch": 0.8555399719495091,
+      "grad_norm": 72.31462976224928,
+      "learning_rate": 6.236712335336131e-09,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.25,
+      "logps/chosen": -270.0,
+      "logps/rejected": -245.0,
+      "loss": 0.4297,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.57421875,
+      "rewards/margins": 1.2265625,
+      "rewards/rejected": -1.8046875,
+      "step": 610
+    },
+    {
+      "epoch": 0.8639551192145862,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42596837878227234,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.31640625,
+      "eval_rewards/margins": 1.4765625,
+      "eval_rewards/rejected": -1.796875,
+      "eval_runtime": 65.9754,
+      "eval_samples_per_second": 22.539,
+      "eval_steps_per_second": 0.712,
+      "step": 616
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 94.67219809370135,
+      "learning_rate": 5.104552330854112e-09,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -330.0,
+      "logps/rejected": -330.0,
+      "loss": 0.4428,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.44921875,
+      "rewards/margins": 1.859375,
+      "rewards/rejected": -2.3125,
+      "step": 620
+    },
+    {
+      "epoch": 0.8751753155680224,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42579808831214905,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.3125,
+      "eval_rewards/margins": 1.4765625,
+      "eval_rewards/rejected": -1.7890625,
+      "eval_runtime": 65.631,
+      "eval_samples_per_second": 22.657,
+      "eval_steps_per_second": 0.716,
+      "step": 624
+    },
+    {
+      "epoch": 0.8835904628330996,
+      "grad_norm": 64.83037807935614,
+      "learning_rate": 4.080212259372711e-09,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -352.0,
+      "logps/rejected": -312.0,
+      "loss": 0.4202,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.33203125,
+      "rewards/margins": 1.75,
+      "rewards/rejected": -2.078125,
+      "step": 630
+    },
+    {
+      "epoch": 0.8863955119214586,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42533478140830994,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.322265625,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.8046875,
+      "eval_runtime": 66.9182,
+      "eval_samples_per_second": 22.221,
+      "eval_steps_per_second": 0.702,
+      "step": 632
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "grad_norm": 77.97086366602333,
+      "learning_rate": 3.1661521537819257e-09,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -342.0,
+      "logps/rejected": -298.0,
+      "loss": 0.4241,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.306640625,
+      "rewards/margins": 1.734375,
+      "rewards/rejected": -2.046875,
+      "step": 640
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42546603083610535,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.333984375,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.828125,
+      "eval_runtime": 65.8172,
+      "eval_samples_per_second": 22.593,
+      "eval_steps_per_second": 0.714,
+      "step": 640
+    },
+    {
+      "epoch": 0.908835904628331,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4252333641052246,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.349609375,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 65.7779,
+      "eval_samples_per_second": 22.606,
+      "eval_steps_per_second": 0.715,
+      "step": 648
+    },
+    {
+      "epoch": 0.9116409537166901,
+      "grad_norm": 69.48106695135698,
+      "learning_rate": 2.3645672009984684e-09,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -346.0,
+      "logps/rejected": -302.0,
+      "loss": 0.4252,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.38671875,
+      "rewards/margins": 1.6171875,
+      "rewards/rejected": -2.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.9200561009817672,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42583197355270386,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.361328125,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 66.0463,
+      "eval_samples_per_second": 22.514,
+      "eval_steps_per_second": 0.712,
+      "step": 656
+    },
+    {
+      "epoch": 0.9256661991584852,
+      "grad_norm": 70.66128275052918,
+      "learning_rate": 1.677382470052513e-09,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.25,
+      "logps/chosen": -350.0,
+      "logps/rejected": -292.0,
+      "loss": 0.4117,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.4140625,
+      "rewards/margins": 1.7578125,
+      "rewards/rejected": -2.171875,
+      "step": 660
+    },
+    {
+      "epoch": 0.9312762973352033,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.425725519657135,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.353515625,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.8359375,
+      "eval_runtime": 65.6463,
+      "eval_samples_per_second": 22.652,
+      "eval_steps_per_second": 0.716,
+      "step": 664
+    },
+    {
+      "epoch": 0.9396914446002805,
+      "grad_norm": 67.79647746651278,
+      "learning_rate": 1.1062482888836656e-09,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -245.0,
+      "logps/rejected": -266.0,
+      "loss": 0.4127,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.384765625,
+      "rewards/margins": 1.421875,
+      "rewards/rejected": -1.8046875,
+      "step": 670
+    },
+    {
+      "epoch": 0.9424964936886395,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4255295693874359,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.349609375,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 65.9031,
+      "eval_samples_per_second": 22.563,
+      "eval_steps_per_second": 0.713,
+      "step": 672
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "grad_norm": 50.38431745562912,
+      "learning_rate": 6.525362809492008e-10,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -322.0,
+      "logps/rejected": -276.0,
+      "loss": 0.3985,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.53515625,
+      "rewards/margins": 1.6171875,
+      "rewards/rejected": -2.15625,
+      "step": 680
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4254519045352936,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.357421875,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 65.8793,
+      "eval_samples_per_second": 22.572,
+      "eval_steps_per_second": 0.713,
+      "step": 680
+    },
+    {
+      "epoch": 0.9649368863955119,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4253355860710144,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.34765625,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 66.1302,
+      "eval_samples_per_second": 22.486,
+      "eval_steps_per_second": 0.711,
+      "step": 688
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 51.51027893280607,
+      "learning_rate": 3.173360711629325e-10,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -342.0,
+      "logps/rejected": -280.0,
+      "loss": 0.4232,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.51953125,
+      "rewards/margins": 1.234375,
+      "rewards/rejected": -1.75,
+      "step": 690
+    },
+    {
+      "epoch": 0.9761570827489481,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4256296157836914,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.349609375,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.8359375,
+      "eval_runtime": 67.5309,
+      "eval_samples_per_second": 22.02,
+      "eval_steps_per_second": 0.696,
+      "step": 696
+    },
+    {
+      "epoch": 0.9817671809256662,
+      "grad_norm": 79.52198266178024,
+      "learning_rate": 1.014526690756634e-10,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -280.0,
+      "logps/rejected": -300.0,
+      "loss": 0.4144,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.77734375,
+      "rewards/margins": 1.671875,
+      "rewards/rejected": -2.453125,
+      "step": 700
+    },
+    {
+      "epoch": 0.9873772791023843,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.42626455426216125,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.359375,
+      "eval_rewards/margins": 1.484375,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 65.3991,
+      "eval_samples_per_second": 22.737,
+      "eval_steps_per_second": 0.719,
+      "step": 704
+    },
+    {
+      "epoch": 0.9957924263674615,
+      "grad_norm": 79.80401646321468,
+      "learning_rate": 5.404535581693403e-12,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -304.0,
+      "logps/rejected": -274.0,
+      "loss": 0.4354,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.6015625,
+      "rewards/margins": 1.4453125,
+      "rewards/rejected": -2.046875,
+      "step": 710
+    },
+    {
+      "epoch": 0.9985974754558204,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.4255307912826538,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.345703125,
+      "eval_rewards/margins": 1.4921875,
+      "eval_rewards/rejected": -1.84375,
+      "eval_runtime": 65.6591,
+      "eval_samples_per_second": 22.647,
+      "eval_steps_per_second": 0.716,
+      "step": 712
+    },
+    {
+      "epoch": 1.0,
+      "step": 713,
+      "total_flos": 0.0,
+      "train_loss": 0.4748117412123071,
+      "train_runtime": 31366.6388,
+      "train_samples_per_second": 1.454,
+      "train_steps_per_second": 0.023
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 713,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 8,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fc6a513886ab8b2aca781148a20543f691866b50de131939a57ef261a093fca
 size 7736

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5de9c267d675fc2ffd12a04cbb17b702e35fc85dc30f7302bd8daf0e5aaec3
 size 7736