GRPO-1.5B-Format-Old / trainer_state.json

Training in progress, step 250

df178ca verified 5 months ago

116 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2857142857142857,
	"eval_steps": 500,
	"global_step": 250,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 2700.5104370117188,
	"entropy": 0.3671875,
	"epoch": 0.001142857142857143,
	"grad_norm": 0.11866585910320282,
	"kl": 0.0,
	"learning_rate": 0.0,
	"loss": 0.0,
	"reward": 0.7604166893288493,
	"reward_std": 0.4268697127699852,
	"rewards/accuracy_reward": 0.25000001303851604,
	"rewards/format_reward": 0.5104166669771075,
	"step": 1
	},
	{
	"completion_length": 3164.5729370117188,
	"entropy": 0.35498046875,
	"epoch": 0.002285714285714286,
	"grad_norm": 0.11806796491146088,
	"kl": 0.0,
	"learning_rate": 4e-08,
	"loss": 0.0,
	"reward": 0.6875000204890966,
	"reward_std": 0.36165641620755196,
	"rewards/accuracy_reward": 0.3020833386108279,
	"rewards/format_reward": 0.3854166818782687,
	"step": 2
	},
	{
	"completion_length": 3615.7500610351562,
	"entropy": 0.45654296875,
	"epoch": 0.0034285714285714284,
	"grad_norm": 0.13286341726779938,
	"kl": 4.506111145019531e-05,
	"learning_rate": 8e-08,
	"loss": 0.0,
	"reward": 0.18750000279396772,
	"reward_std": 0.23272089660167694,
	"rewards/accuracy_reward": 0.05208333395421505,
	"rewards/format_reward": 0.13541666697710752,
	"step": 3
	},
	{
	"completion_length": 2482.416717529297,
	"entropy": 0.40869140625,
	"epoch": 0.004571428571428572,
	"grad_norm": 0.14147797226905823,
	"kl": 3.30805778503418e-05,
	"learning_rate": 1.2e-07,
	"loss": 0.0,
	"reward": 0.8645833730697632,
	"reward_std": 0.4684411771595478,
	"rewards/accuracy_reward": 0.18750000279396772,
	"rewards/format_reward": 0.677083358168602,
	"step": 4
	},
	{
	"completion_length": 3591.3646850585938,
	"entropy": 0.45947265625,
	"epoch": 0.005714285714285714,
	"grad_norm": 0.13485956192016602,
	"kl": 4.0203332901000977e-05,
	"learning_rate": 1.6e-07,
	"loss": 0.0,
	"reward": 0.3750000074505806,
	"reward_std": 0.4921039678156376,
	"rewards/accuracy_reward": 0.0416666679084301,
	"rewards/format_reward": 0.3333333432674408,
	"step": 5
	},
	{
	"completion_length": 3477.2396850585938,
	"entropy": 0.45654296875,
	"epoch": 0.006857142857142857,
	"grad_norm": 0.13642774522304535,
	"kl": 4.4018030166625977e-05,
	"learning_rate": 2e-07,
	"loss": 0.0,
	"reward": 0.2812500074505806,
	"reward_std": 0.3338681757450104,
	"rewards/accuracy_reward": 0.031250000931322575,
	"rewards/format_reward": 0.25,
	"step": 6
	},
	{
	"completion_length": 3389.4584350585938,
	"entropy": 0.3916015625,
	"epoch": 0.008,
	"grad_norm": 0.1285017877817154,
	"kl": 2.73287296295166e-05,
	"learning_rate": 2.4e-07,
	"loss": 0.0,
	"reward": 0.739583358168602,
	"reward_std": 0.6624889373779297,
	"rewards/accuracy_reward": 0.2291666716337204,
	"rewards/format_reward": 0.5104166865348816,
	"step": 7
	},
	{
	"completion_length": 2890.104248046875,
	"entropy": 0.343017578125,
	"epoch": 0.009142857142857144,
	"grad_norm": 0.07784460484981537,
	"kl": 2.562999725341797e-05,
	"learning_rate": 2.8e-07,
	"loss": 0.0,
	"reward": 0.8541667014360428,
	"reward_std": 0.31141985207796097,
	"rewards/accuracy_reward": 0.3750000102445483,
	"rewards/format_reward": 0.4791666716337204,
	"step": 8
	},
	{
	"completion_length": 3353.1875610351562,
	"entropy": 0.4384765625,
	"epoch": 0.010285714285714285,
	"grad_norm": 0.1676989048719406,
	"kl": 4.4345855712890625e-05,
	"learning_rate": 3.2e-07,
	"loss": 0.0,
	"reward": 0.5000000074505806,
	"reward_std": 0.533780675381422,
	"rewards/accuracy_reward": 0.13541667070239782,
	"rewards/format_reward": 0.3645833432674408,
	"step": 9
	},
	{
	"completion_length": 2996.1875610351562,
	"entropy": 0.3466796875,
	"epoch": 0.011428571428571429,
	"grad_norm": 0.15292252600193024,
	"kl": 3.3229589462280273e-05,
	"learning_rate": 3.6e-07,
	"loss": 0.0,
	"reward": 0.552083358168602,
	"reward_std": 0.4631676971912384,
	"rewards/accuracy_reward": 0.13541667256504297,
	"rewards/format_reward": 0.4166666753590107,
	"step": 10
	},
	{
	"completion_length": 3595.4063720703125,
	"entropy": 0.38134765625,
	"epoch": 0.012571428571428572,
	"grad_norm": 0.15428116917610168,
	"kl": 3.191828727722168e-05,
	"learning_rate": 4e-07,
	"loss": 0.0,
	"reward": 0.260416672565043,
	"reward_std": 0.4286932796239853,
	"rewards/accuracy_reward": 0.09375000558793545,
	"rewards/format_reward": 0.1666666679084301,
	"step": 11
	},
	{
	"completion_length": 2551.479217529297,
	"entropy": 0.41015625,
	"epoch": 0.013714285714285714,
	"grad_norm": 0.1346665471792221,
	"kl": 3.972649574279785e-05,
	"learning_rate": 4.3999999999999997e-07,
	"loss": 0.0,
	"reward": 0.8125000447034836,
	"reward_std": 0.455630861222744,
	"rewards/accuracy_reward": 0.17708333395421505,
	"rewards/format_reward": 0.6354166865348816,
	"step": 12
	},
	{
	"completion_length": 3197.1146240234375,
	"entropy": 0.40625,
	"epoch": 0.014857142857142857,
	"grad_norm": 0.11476687341928482,
	"kl": 3.629922866821289e-05,
	"learning_rate": 4.8e-07,
	"loss": 0.0,
	"reward": 0.541666679084301,
	"reward_std": 0.28364068269729614,
	"rewards/accuracy_reward": 0.15625000279396772,
	"rewards/format_reward": 0.3854166716337204,
	"step": 13
	},
	{
	"completion_length": 2990.2709350585938,
	"entropy": 0.36376953125,
	"epoch": 0.016,
	"grad_norm": 0.19115598499774933,
	"kl": 2.4765729904174805e-05,
	"learning_rate": 5.2e-07,
	"loss": 0.0,
	"reward": 0.6875000298023224,
	"reward_std": 0.4306366816163063,
	"rewards/accuracy_reward": 0.2083333432674408,
	"rewards/format_reward": 0.4791666716337204,
	"step": 14
	},
	{
	"completion_length": 2998.2084350585938,
	"entropy": 0.376708984375,
	"epoch": 0.017142857142857144,
	"grad_norm": 0.08084020018577576,
	"kl": 2.4259090423583984e-05,
	"learning_rate": 5.6e-07,
	"loss": 0.0,
	"reward": 0.65625,
	"reward_std": 0.2722426578402519,
	"rewards/accuracy_reward": 0.2604166679084301,
	"rewards/format_reward": 0.3958333358168602,
	"step": 15
	},
	{
	"completion_length": 3789.6251220703125,
	"entropy": 0.44580078125,
	"epoch": 0.018285714285714287,
	"grad_norm": 0.13743434846401215,
	"kl": 3.844499588012695e-05,
	"learning_rate": 6e-07,
	"loss": 0.0,
	"reward": 0.28125000558793545,
	"reward_std": 0.43100808560848236,
	"rewards/accuracy_reward": 0.11458333488553762,
	"rewards/format_reward": 0.16666666977107525,
	"step": 16
	},
	{
	"completion_length": 2505.7188110351562,
	"entropy": 0.45361328125,
	"epoch": 0.019428571428571427,
	"grad_norm": 0.1941273808479309,
	"kl": 3.5628676414489746e-05,
	"learning_rate": 6.4e-07,
	"loss": 0.0,
	"reward": 0.8541666865348816,
	"reward_std": 0.42319394648075104,
	"rewards/accuracy_reward": 0.2500000102445483,
	"rewards/format_reward": 0.6041666716337204,
	"step": 17
	},
	{
	"completion_length": 3116.479248046875,
	"entropy": 0.36669921875,
	"epoch": 0.02057142857142857,
	"grad_norm": 0.1034688651561737,
	"kl": 2.0712614059448242e-05,
	"learning_rate": 6.800000000000001e-07,
	"loss": 0.0,
	"reward": 0.645833358168602,
	"reward_std": 0.3843524754047394,
	"rewards/accuracy_reward": 0.1875000111758709,
	"rewards/format_reward": 0.4583333507180214,
	"step": 18
	},
	{
	"completion_length": 3206.135498046875,
	"entropy": 0.3837890625,
	"epoch": 0.021714285714285714,
	"grad_norm": 0.12397009134292603,
	"kl": 1.7814338207244873e-05,
	"learning_rate": 7.2e-07,
	"loss": 0.0,
	"reward": 0.6041666939854622,
	"reward_std": 0.49627041071653366,
	"rewards/accuracy_reward": 0.20833334419876337,
	"rewards/format_reward": 0.3958333432674408,
	"step": 19
	},
	{
	"completion_length": 2758.656280517578,
	"entropy": 0.346435546875,
	"epoch": 0.022857142857142857,
	"grad_norm": 0.14725361764431,
	"kl": 1.5437602996826172e-05,
	"learning_rate": 7.599999999999999e-07,
	"loss": 0.0,
	"reward": 0.9270833879709244,
	"reward_std": 0.5184547901153564,
	"rewards/accuracy_reward": 0.3125,
	"rewards/format_reward": 0.614583358168602,
	"step": 20
	},
	{
	"completion_length": 2928.7083740234375,
	"entropy": 0.419921875,
	"epoch": 0.024,
	"grad_norm": 0.16036786139011383,
	"kl": 3.966689109802246e-05,
	"learning_rate": 8e-07,
	"loss": 0.0,
	"reward": 0.6458333544433117,
	"reward_std": 0.45568280667066574,
	"rewards/accuracy_reward": 0.18750000465661287,
	"rewards/format_reward": 0.45833334140479565,
	"step": 21
	},
	{
	"completion_length": 1764.3541870117188,
	"entropy": 0.3837890625,
	"epoch": 0.025142857142857144,
	"grad_norm": 0.20493587851524353,
	"kl": 3.927946090698242e-05,
	"learning_rate": 8.399999999999999e-07,
	"loss": 0.0,
	"reward": 1.177083358168602,
	"reward_std": 0.3750041276216507,
	"rewards/accuracy_reward": 0.3125000102445483,
	"rewards/format_reward": 0.8645833432674408,
	"step": 22
	},
	{
	"completion_length": 2654.7188110351562,
	"entropy": 0.37841796875,
	"epoch": 0.026285714285714287,
	"grad_norm": 0.14049632847309113,
	"kl": 2.409517765045166e-05,
	"learning_rate": 8.799999999999999e-07,
	"loss": 0.0,
	"reward": 0.7395833507180214,
	"reward_std": 0.5375720374286175,
	"rewards/accuracy_reward": 0.1875000074505806,
	"rewards/format_reward": 0.5520833507180214,
	"step": 23
	},
	{
	"completion_length": 2969.5000610351562,
	"entropy": 0.369140625,
	"epoch": 0.027428571428571427,
	"grad_norm": 0.16432780027389526,
	"kl": 3.295391798019409e-05,
	"learning_rate": 9.2e-07,
	"loss": 0.0,
	"reward": 0.7708333432674408,
	"reward_std": 0.46594493091106415,
	"rewards/accuracy_reward": 0.25,
	"rewards/format_reward": 0.5208333432674408,
	"step": 24
	},
	{
	"completion_length": 2851.1458740234375,
	"entropy": 0.4326171875,
	"epoch": 0.02857142857142857,
	"grad_norm": 0.13283270597457886,
	"kl": 8.803606033325195e-05,
	"learning_rate": 9.6e-07,
	"loss": 0.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.34967152029275894,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.4270833432674408,
	"step": 25
	},
	{
	"completion_length": 3068.9063110351562,
	"entropy": 0.40234375,
	"epoch": 0.029714285714285714,
	"grad_norm": 0.08674507588148117,
	"kl": 2.0168721675872803e-05,
	"learning_rate": 1e-06,
	"loss": 0.0,
	"reward": 0.6666666865348816,
	"reward_std": 0.272128164768219,
	"rewards/accuracy_reward": 0.19791666977107525,
	"rewards/format_reward": 0.4687500149011612,
	"step": 26
	},
	{
	"completion_length": 3239.416748046875,
	"entropy": 0.43212890625,
	"epoch": 0.030857142857142857,
	"grad_norm": 0.13486000895500183,
	"kl": 4.280870780348778e-05,
	"learning_rate": 9.999561358041868e-07,
	"loss": 0.0,
	"reward": 0.6562500223517418,
	"reward_std": 0.47437138110399246,
	"rewards/accuracy_reward": 0.1875000037252903,
	"rewards/format_reward": 0.4687500149011612,
	"step": 27
	},
	{
	"completion_length": 3000.885498046875,
	"entropy": 0.4033203125,
	"epoch": 0.032,
	"grad_norm": 0.12638980150222778,
	"kl": 7.337331771850586e-05,
	"learning_rate": 9.998245517681593e-07,
	"loss": 0.0,
	"reward": 0.7604166865348816,
	"reward_std": 0.4810705706477165,
	"rewards/accuracy_reward": 0.3229166716337204,
	"rewards/format_reward": 0.4375000074505806,
	"step": 28
	},
	{
	"completion_length": 3736.104248046875,
	"entropy": 0.4453125,
	"epoch": 0.03314285714285714,
	"grad_norm": 0.17240460216999054,
	"kl": 0.00014406442642211914,
	"learning_rate": 9.996052735444862e-07,
	"loss": 0.0,
	"reward": 0.2708333469927311,
	"reward_std": 0.4822928011417389,
	"rewards/accuracy_reward": 0.07291666697710752,
	"rewards/format_reward": 0.19791667256504297,
	"step": 29
	},
	{
	"completion_length": 3230.916748046875,
	"entropy": 0.3857421875,
	"epoch": 0.03428571428571429,
	"grad_norm": 0.11792454868555069,
	"kl": 0.00036847591400146484,
	"learning_rate": 9.992983438818915e-07,
	"loss": 0.0,
	"reward": 0.7500000353902578,
	"reward_std": 0.6145796477794647,
	"rewards/accuracy_reward": 0.281250006519258,
	"rewards/format_reward": 0.4687500102445483,
	"step": 30
	},
	{
	"completion_length": 3289.6771240234375,
	"entropy": 0.39013671875,
	"epoch": 0.03542857142857143,
	"grad_norm": 0.14808149635791779,
	"kl": 0.0001868605613708496,
	"learning_rate": 9.989038226169207e-07,
	"loss": 0.0,
	"reward": 0.5,
	"reward_std": 0.41467901691794395,
	"rewards/accuracy_reward": 0.17708333861082792,
	"rewards/format_reward": 0.322916679084301,
	"step": 31
	},
	{
	"completion_length": 3417.041748046875,
	"entropy": 0.44775390625,
	"epoch": 0.036571428571428574,
	"grad_norm": 0.10391438752412796,
	"kl": 0.00020647048950195312,
	"learning_rate": 9.98421786662277e-07,
	"loss": 0.0,
	"reward": 0.7291666977107525,
	"reward_std": 0.4650338739156723,
	"rewards/accuracy_reward": 0.2916666679084301,
	"rewards/format_reward": 0.43750001303851604,
	"step": 32
	},
	{
	"completion_length": 3650.1251220703125,
	"entropy": 0.3798828125,
	"epoch": 0.037714285714285714,
	"grad_norm": 0.10379055887460709,
	"kl": 0.0002885758876800537,
	"learning_rate": 9.97852329991824e-07,
	"loss": 0.0,
	"reward": 0.42708334140479565,
	"reward_std": 0.5094060599803925,
	"rewards/accuracy_reward": 0.16666667070239782,
	"rewards/format_reward": 0.2604166781529784,
	"step": 33
	},
	{
	"completion_length": 2580.8438110351562,
	"entropy": 0.43701171875,
	"epoch": 0.038857142857142854,
	"grad_norm": 0.14274698495864868,
	"kl": 0.000626683235168457,
	"learning_rate": 9.971955636222684e-07,
	"loss": 0.0,
	"reward": 0.8645833563059568,
	"reward_std": 0.5226760059595108,
	"rewards/accuracy_reward": 0.33333334885537624,
	"rewards/format_reward": 0.5312500149011612,
	"step": 34
	},
	{
	"completion_length": 3257.8333740234375,
	"entropy": 0.42333984375,
	"epoch": 0.04,
	"grad_norm": 0.15037870407104492,
	"kl": 0.0006988048553466797,
	"learning_rate": 9.964516155915151e-07,
	"loss": 0.0,
	"reward": 0.5520833507180214,
	"reward_std": 0.5667570382356644,
	"rewards/accuracy_reward": 0.19791666883975267,
	"rewards/format_reward": 0.35416668467223644,
	"step": 35
	},
	{
	"completion_length": 3751.5000610351562,
	"entropy": 0.50048828125,
	"epoch": 0.04114285714285714,
	"grad_norm": 0.1191205084323883,
	"kl": 0.0008706152439117432,
	"learning_rate": 9.956206309337066e-07,
	"loss": 0.0,
	"reward": 0.22916667442768812,
	"reward_std": 0.4133975952863693,
	"rewards/accuracy_reward": 0.031250000931322575,
	"rewards/format_reward": 0.19791666697710752,
	"step": 36
	},
	{
	"completion_length": 3529.010498046875,
	"entropy": 0.4375,
	"epoch": 0.04228571428571429,
	"grad_norm": 0.09502461552619934,
	"kl": 0.0006368160247802734,
	"learning_rate": 9.947027716509488e-07,
	"loss": 0.0,
	"reward": 0.27083334140479565,
	"reward_std": 0.1726192608475685,
	"rewards/accuracy_reward": 0.031250000931322575,
	"rewards/format_reward": 0.23958333861082792,
	"step": 37
	},
	{
	"completion_length": 3582.3646240234375,
	"entropy": 0.45263671875,
	"epoch": 0.04342857142857143,
	"grad_norm": 0.057916510850191116,
	"kl": 0.0004200935363769531,
	"learning_rate": 9.93698216681727e-07,
	"loss": 0.0,
	"reward": 0.260416679084301,
	"reward_std": 0.18053755164146423,
	"rewards/accuracy_reward": 0.11458333395421505,
	"rewards/format_reward": 0.1458333358168602,
	"step": 38
	},
	{
	"completion_length": 2990.2188110351562,
	"entropy": 0.36572265625,
	"epoch": 0.044571428571428574,
	"grad_norm": 0.13697481155395508,
	"kl": 0.0011453032493591309,
	"learning_rate": 9.926071618660237e-07,
	"loss": 0.0,
	"reward": 0.729166679084301,
	"reward_std": 0.2874651923775673,
	"rewards/accuracy_reward": 0.2500000027939677,
	"rewards/format_reward": 0.4791666716337204,
	"step": 39
	},
	{
	"completion_length": 2710.760498046875,
	"entropy": 0.38818359375,
	"epoch": 0.045714285714285714,
	"grad_norm": 0.17243291437625885,
	"kl": 0.0023212432861328125,
	"learning_rate": 9.91429819907136e-07,
	"loss": 0.0001,
	"reward": 0.7395833656191826,
	"reward_std": 0.44072920083999634,
	"rewards/accuracy_reward": 0.19791667442768812,
	"rewards/format_reward": 0.541666679084301,
	"step": 40
	},
	{
	"completion_length": 3186.885498046875,
	"entropy": 0.380859375,
	"epoch": 0.046857142857142854,
	"grad_norm": 0.13304336369037628,
	"kl": 0.0006128549575805664,
	"learning_rate": 9.901664203302124e-07,
	"loss": 0.0,
	"reward": 0.5000000074505806,
	"reward_std": 0.4803263619542122,
	"rewards/accuracy_reward": 0.09375000279396772,
	"rewards/format_reward": 0.4062500149011612,
	"step": 41
	},
	{
	"completion_length": 3108.7500610351562,
	"entropy": 0.45703125,
	"epoch": 0.048,
	"grad_norm": 0.05359484255313873,
	"kl": 0.0004253387451171875,
	"learning_rate": 9.888172094375033e-07,
	"loss": 0.0,
	"reward": 0.43750000186264515,
	"reward_std": 0.13371453434228897,
	"rewards/accuracy_reward": 0.13541666697710752,
	"rewards/format_reward": 0.3020833348855376,
	"step": 42
	},
	{
	"completion_length": 3218.541748046875,
	"entropy": 0.42431640625,
	"epoch": 0.04914285714285714,
	"grad_norm": 0.12211965769529343,
	"kl": 0.0012423992156982422,
	"learning_rate": 9.873824502603459e-07,
	"loss": 0.0,
	"reward": 0.510416692122817,
	"reward_std": 0.34035979211330414,
	"rewards/accuracy_reward": 0.1875000037252903,
	"rewards/format_reward": 0.3229166716337204,
	"step": 43
	},
	{
	"completion_length": 2851.635482788086,
	"entropy": 0.39013671875,
	"epoch": 0.05028571428571429,
	"grad_norm": 0.1306796669960022,
	"kl": 0.0009481906890869141,
	"learning_rate": 9.85862422507884e-07,
	"loss": 0.0,
	"reward": 0.7708333563059568,
	"reward_std": 0.42007729411125183,
	"rewards/accuracy_reward": 0.2708333386108279,
	"rewards/format_reward": 0.5000000176951289,
	"step": 44
	},
	{
	"completion_length": 3627.354248046875,
	"entropy": 0.43505859375,
	"epoch": 0.05142857142857143,
	"grad_norm": 0.1441727578639984,
	"kl": 0.0014786720275878906,
	"learning_rate": 9.8425742251254e-07,
	"loss": 0.0001,
	"reward": 0.5104166902601719,
	"reward_std": 0.4969704672694206,
	"rewards/accuracy_reward": 0.1875,
	"rewards/format_reward": 0.3229166828095913,
	"step": 45
	},
	{
	"completion_length": 3407.3438110351562,
	"entropy": 0.50341796875,
	"epoch": 0.052571428571428575,
	"grad_norm": 0.14224384725093842,
	"kl": 0.001373291015625,
	"learning_rate": 9.825677631722435e-07,
	"loss": 0.0001,
	"reward": 0.30208334885537624,
	"reward_std": 0.34669168293476105,
	"rewards/accuracy_reward": 0.02083333395421505,
	"rewards/format_reward": 0.28125001303851604,
	"step": 46
	},
	{
	"completion_length": 3059.5521850585938,
	"entropy": 0.38916015625,
	"epoch": 0.053714285714285714,
	"grad_norm": 0.1632174700498581,
	"kl": 0.001373887062072754,
	"learning_rate": 9.807937738894303e-07,
	"loss": 0.0001,
	"reward": 0.8437500149011612,
	"reward_std": 0.5346902906894684,
	"rewards/accuracy_reward": 0.322916679084301,
	"rewards/format_reward": 0.5208333507180214,
	"step": 47
	},
	{
	"completion_length": 2942.260498046875,
	"entropy": 0.40576171875,
	"epoch": 0.054857142857142854,
	"grad_norm": 0.12902727723121643,
	"kl": 0.0034656524658203125,
	"learning_rate": 9.78935800506826e-07,
	"loss": 0.0001,
	"reward": 0.6562500335276127,
	"reward_std": 0.5015772953629494,
	"rewards/accuracy_reward": 0.19791667722165585,
	"rewards/format_reward": 0.4583333544433117,
	"step": 48
	},
	{
	"completion_length": 2611.0000610351562,
	"entropy": 0.38330078125,
	"epoch": 0.056,
	"grad_norm": 0.1312219202518463,
	"kl": 0.005061149597167969,
	"learning_rate": 9.769942052400235e-07,
	"loss": 0.0002,
	"reward": 0.7916666716337204,
	"reward_std": 0.38058819621801376,
	"rewards/accuracy_reward": 0.2187500074505806,
	"rewards/format_reward": 0.5729166716337204,
	"step": 49
	},
	{
	"completion_length": 3060.0000610351562,
	"entropy": 0.349609375,
	"epoch": 0.05714285714285714,
	"grad_norm": 0.08954072743654251,
	"kl": 0.0010552406311035156,
	"learning_rate": 9.749693666068663e-07,
	"loss": 0.0,
	"reward": 0.6250000027939677,
	"reward_std": 0.31528370827436447,
	"rewards/accuracy_reward": 0.2604166716337204,
	"rewards/format_reward": 0.3645833460614085,
	"step": 50
	},
	{
	"completion_length": 2443.1146240234375,
	"entropy": 0.46533203125,
	"epoch": 0.05828571428571429,
	"grad_norm": 0.15657995641231537,
	"kl": 0.007048606872558594,
	"learning_rate": 9.728616793536587e-07,
	"loss": 0.0003,
	"reward": 0.7083333432674408,
	"reward_std": 0.31336943060159683,
	"rewards/accuracy_reward": 0.1979166753590107,
	"rewards/format_reward": 0.5104166716337204,
	"step": 51
	},
	{
	"completion_length": 3218.322967529297,
	"entropy": 0.404296875,
	"epoch": 0.05942857142857143,
	"grad_norm": 0.09073984622955322,
	"kl": 0.0022614002227783203,
	"learning_rate": 9.706715543782064e-07,
	"loss": 0.0001,
	"reward": 0.791666716337204,
	"reward_std": 0.5437296032905579,
	"rewards/accuracy_reward": 0.354166679084301,
	"rewards/format_reward": 0.4375,
	"step": 52
	},
	{
	"completion_length": 2848.8855590820312,
	"entropy": 0.42138671875,
	"epoch": 0.060571428571428575,
	"grad_norm": 0.16575101017951965,
	"kl": 0.001046299934387207,
	"learning_rate": 9.683994186497132e-07,
	"loss": 0.0,
	"reward": 0.979166679084301,
	"reward_std": 0.5605000704526901,
	"rewards/accuracy_reward": 0.3541666716337204,
	"rewards/format_reward": 0.6250000223517418,
	"step": 53
	},
	{
	"completion_length": 2977.2188110351562,
	"entropy": 0.39501953125,
	"epoch": 0.061714285714285715,
	"grad_norm": 0.1525822877883911,
	"kl": 0.0014376640319824219,
	"learning_rate": 9.66045715125541e-07,
	"loss": 0.0001,
	"reward": 0.9062500223517418,
	"reward_std": 0.6681454330682755,
	"rewards/accuracy_reward": 0.37500000558793545,
	"rewards/format_reward": 0.5312500149011612,
	"step": 54
	},
	{
	"completion_length": 3231.4063110351562,
	"entropy": 0.43701171875,
	"epoch": 0.06285714285714286,
	"grad_norm": 0.1321529597043991,
	"kl": 0.0012722015380859375,
	"learning_rate": 9.636109026648554e-07,
	"loss": 0.0001,
	"reward": 0.5416666902601719,
	"reward_std": 0.4359280541539192,
	"rewards/accuracy_reward": 0.18750000093132257,
	"rewards/format_reward": 0.35416668467223644,
	"step": 55
	},
	{
	"completion_length": 3173.5001220703125,
	"entropy": 0.421875,
	"epoch": 0.064,
	"grad_norm": 0.08983828872442245,
	"kl": 0.0008525848388671875,
	"learning_rate": 9.610954559391704e-07,
	"loss": 0.0,
	"reward": 0.6250000027939677,
	"reward_std": 0.23468155041337013,
	"rewards/accuracy_reward": 0.2291666716337204,
	"rewards/format_reward": 0.3958333460614085,
	"step": 56
	},
	{
	"completion_length": 3610.635498046875,
	"entropy": 0.33154296875,
	"epoch": 0.06514285714285714,
	"grad_norm": 0.07729873806238174,
	"kl": 0.0005555152893066406,
	"learning_rate": 9.58499865339809e-07,
	"loss": 0.0,
	"reward": 0.4479166669771075,
	"reward_std": 0.4583342596888542,
	"rewards/accuracy_reward": 0.11458333488553762,
	"rewards/format_reward": 0.3333333460614085,
	"step": 57
	},
	{
	"completion_length": 2336.0521545410156,
	"entropy": 0.329833984375,
	"epoch": 0.06628571428571428,
	"grad_norm": 0.15206408500671387,
	"kl": 0.0069732666015625,
	"learning_rate": 9.55824636882301e-07,
	"loss": 0.0003,
	"reward": 0.9895833656191826,
	"reward_std": 0.4796273037791252,
	"rewards/accuracy_reward": 0.3020833386108279,
	"rewards/format_reward": 0.6875000223517418,
	"step": 58
	},
	{
	"completion_length": 3113.2500610351562,
	"entropy": 0.36474609375,
	"epoch": 0.06742857142857143,
	"grad_norm": 0.09677103161811829,
	"kl": 0.0010061264038085938,
	"learning_rate": 9.530702921077358e-07,
	"loss": 0.0,
	"reward": 0.5312500260770321,
	"reward_std": 0.302716389298439,
	"rewards/accuracy_reward": 0.1562500037252903,
	"rewards/format_reward": 0.3750000111758709,
	"step": 59
	},
	{
	"completion_length": 3189.0313110351562,
	"entropy": 0.3974609375,
	"epoch": 0.06857142857142857,
	"grad_norm": 0.08244970440864563,
	"kl": 0.0017404556274414062,
	"learning_rate": 9.502373679810839e-07,
	"loss": 0.0001,
	"reward": 0.4062500074505806,
	"reward_std": 0.31878524273633957,
	"rewards/accuracy_reward": 0.0833333358168602,
	"rewards/format_reward": 0.3229166828095913,
	"step": 60
	},
	{
	"completion_length": 3010.1251220703125,
	"entropy": 0.341796875,
	"epoch": 0.06971428571428571,
	"grad_norm": 0.11613977700471878,
	"kl": 0.0011224746704101562,
	"learning_rate": 9.473264167865171e-07,
	"loss": 0.0,
	"reward": 0.8437500111758709,
	"reward_std": 0.3721206858754158,
	"rewards/accuracy_reward": 0.25,
	"rewards/format_reward": 0.5937500111758709,
	"step": 61
	},
	{
	"completion_length": 2635.2083740234375,
	"entropy": 0.35302734375,
	"epoch": 0.07085714285714285,
	"grad_norm": 0.13679753243923187,
	"kl": 0.002574920654296875,
	"learning_rate": 9.443380060197385e-07,
	"loss": 0.0001,
	"reward": 0.9375000298023224,
	"reward_std": 0.5850840508937836,
	"rewards/accuracy_reward": 0.291666679084301,
	"rewards/format_reward": 0.6458333432674408,
	"step": 62
	},
	{
	"completion_length": 2299.1875610351562,
	"entropy": 0.38427734375,
	"epoch": 0.072,
	"grad_norm": 0.1331767588853836,
	"kl": 0.0034208297729492188,
	"learning_rate": 9.412727182773486e-07,
	"loss": 0.0001,
	"reward": 1.0729166865348816,
	"reward_std": 0.4625158831477165,
	"rewards/accuracy_reward": 0.36458334140479565,
	"rewards/format_reward": 0.7083333432674408,
	"step": 63
	},
	{
	"completion_length": 2695.5104370117188,
	"entropy": 0.3974609375,
	"epoch": 0.07314285714285715,
	"grad_norm": 0.13731464743614197,
	"kl": 0.0019664764404296875,
	"learning_rate": 9.381311511432658e-07,
	"loss": 0.0001,
	"reward": 0.6770833656191826,
	"reward_std": 0.4545453414320946,
	"rewards/accuracy_reward": 0.19791667256504297,
	"rewards/format_reward": 0.479166679084301,
	"step": 64
	},
	{
	"completion_length": 2934.0938110351562,
	"entropy": 0.370361328125,
	"epoch": 0.07428571428571429,
	"grad_norm": 0.1463320106267929,
	"kl": 0.002140045166015625,
	"learning_rate": 9.34913917072228e-07,
	"loss": 0.0001,
	"reward": 0.8229166772216558,
	"reward_std": 0.36905180662870407,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.48958334885537624,
	"step": 65
	},
	{
	"completion_length": 2158.9479598999023,
	"entropy": 0.34326171875,
	"epoch": 0.07542857142857143,
	"grad_norm": 0.168357253074646,
	"kl": 0.0015735626220703125,
	"learning_rate": 9.316216432703916e-07,
	"loss": 0.0001,
	"reward": 0.9166666818782687,
	"reward_std": 0.25834736227989197,
	"rewards/accuracy_reward": 0.3750000149011612,
	"rewards/format_reward": 0.5416666669771075,
	"step": 66
	},
	{
	"completion_length": 3636.229248046875,
	"entropy": 0.36962890625,
	"epoch": 0.07657142857142857,
	"grad_norm": 0.10577098280191422,
	"kl": 0.0020542144775390625,
	"learning_rate": 9.282549715730579e-07,
	"loss": 0.0001,
	"reward": 0.18750000279396772,
	"reward_std": 0.20090095698833466,
	"rewards/accuracy_reward": 0.02083333395421505,
	"rewards/format_reward": 0.1666666716337204,
	"step": 67
	},
	{
	"completion_length": 2369.2916870117188,
	"entropy": 0.401611328125,
	"epoch": 0.07771428571428571,
	"grad_norm": 0.20740464329719543,
	"kl": 0.00390625,
	"learning_rate": 9.248145583195447e-07,
	"loss": 0.0002,
	"reward": 0.802083358168602,
	"reward_std": 0.47093402594327927,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.5625000149011612,
	"step": 68
	},
	{
	"completion_length": 2438.010498046875,
	"entropy": 0.447265625,
	"epoch": 0.07885714285714286,
	"grad_norm": 0.20514391362667084,
	"kl": 0.005084991455078125,
	"learning_rate": 9.213010742252327e-07,
	"loss": 0.0002,
	"reward": 0.583333358168602,
	"reward_std": 0.31931574642658234,
	"rewards/accuracy_reward": 0.06250000279396772,
	"rewards/format_reward": 0.5208333507180214,
	"step": 69
	},
	{
	"completion_length": 3127.2083740234375,
	"entropy": 0.364501953125,
	"epoch": 0.08,
	"grad_norm": 0.08004138618707657,
	"kl": 0.0024518966674804688,
	"learning_rate": 9.177152042508077e-07,
	"loss": 0.0001,
	"reward": 0.5416666977107525,
	"reward_std": 0.31260205432772636,
	"rewards/accuracy_reward": 0.1145833358168602,
	"rewards/format_reward": 0.4270833544433117,
	"step": 70
	},
	{
	"completion_length": 2821.635467529297,
	"entropy": 0.435546875,
	"epoch": 0.08114285714285714,
	"grad_norm": 0.14604488015174866,
	"kl": 0.005157470703125,
	"learning_rate": 9.140576474687263e-07,
	"loss": 0.0002,
	"reward": 0.5833333507180214,
	"reward_std": 0.2736881971359253,
	"rewards/accuracy_reward": 0.1770833432674408,
	"rewards/format_reward": 0.4062500074505806,
	"step": 71
	},
	{
	"completion_length": 3006.6563110351562,
	"entropy": 0.505859375,
	"epoch": 0.08228571428571428,
	"grad_norm": 0.19332122802734375,
	"kl": 0.0032939910888671875,
	"learning_rate": 9.103291169269299e-07,
	"loss": 0.0001,
	"reward": 0.4583333507180214,
	"reward_std": 0.38849541172385216,
	"rewards/accuracy_reward": 0.0416666679084301,
	"rewards/format_reward": 0.4166666716337204,
	"step": 72
	},
	{
	"completion_length": 3805.1771850585938,
	"entropy": 0.5087890625,
	"epoch": 0.08342857142857144,
	"grad_norm": 0.08017224818468094,
	"kl": 0.00171661376953125,
	"learning_rate": 9.065303395098358e-07,
	"loss": 0.0001,
	"reward": 0.281250006519258,
	"reward_std": 0.3908010721206665,
	"rewards/accuracy_reward": 0.11458333395421505,
	"rewards/format_reward": 0.16666667256504297,
	"step": 73
	},
	{
	"completion_length": 3330.1563110351562,
	"entropy": 0.427734375,
	"epoch": 0.08457142857142858,
	"grad_norm": 0.1395280957221985,
	"kl": 0.0033082962036132812,
	"learning_rate": 9.026620557966279e-07,
	"loss": 0.0001,
	"reward": 0.5729166939854622,
	"reward_std": 0.4739295169711113,
	"rewards/accuracy_reward": 0.25000000558793545,
	"rewards/format_reward": 0.322916679084301,
	"step": 74
	},
	{
	"completion_length": 3050.5313110351562,
	"entropy": 0.3994140625,
	"epoch": 0.08571428571428572,
	"grad_norm": 0.11711548268795013,
	"kl": 0.0038471221923828125,
	"learning_rate": 8.987250199168808e-07,
	"loss": 0.0002,
	"reward": 0.5312500223517418,
	"reward_std": 0.39057330042123795,
	"rewards/accuracy_reward": 0.0833333358168602,
	"rewards/format_reward": 0.447916679084301,
	"step": 75
	},
	{
	"completion_length": 2418.604217529297,
	"entropy": 0.4072265625,
	"epoch": 0.08685714285714285,
	"grad_norm": 0.13031832873821259,
	"kl": 0.001972198486328125,
	"learning_rate": 8.9471999940354e-07,
	"loss": 0.0001,
	"reward": 0.7083333507180214,
	"reward_std": 0.29223429784178734,
	"rewards/accuracy_reward": 0.08333333861082792,
	"rewards/format_reward": 0.6250000223517418,
	"step": 76
	},
	{
	"completion_length": 3237.010498046875,
	"entropy": 0.431640625,
	"epoch": 0.088,
	"grad_norm": 0.10760512948036194,
	"kl": 0.0021152496337890625,
	"learning_rate": 8.906477750432903e-07,
	"loss": 0.0001,
	"reward": 0.5520833544433117,
	"reward_std": 0.3883203938603401,
	"rewards/accuracy_reward": 0.13541666697710752,
	"rewards/format_reward": 0.4166666716337204,
	"step": 77
	},
	{
	"completion_length": 2933.1459350585938,
	"entropy": 0.38671875,
	"epoch": 0.08914285714285715,
	"grad_norm": 0.11242065578699112,
	"kl": 0.0015392303466796875,
	"learning_rate": 8.865091407243394e-07,
	"loss": 0.0001,
	"reward": 0.6666666679084301,
	"reward_std": 0.5230761393904686,
	"rewards/accuracy_reward": 0.2083333358168602,
	"rewards/format_reward": 0.4583333395421505,
	"step": 78
	},
	{
	"completion_length": 2425.1146240234375,
	"entropy": 0.359619140625,
	"epoch": 0.09028571428571429,
	"grad_norm": 0.08172761648893356,
	"kl": 0.0024118423461914062,
	"learning_rate": 8.823049032816478e-07,
	"loss": 0.0001,
	"reward": 0.822916679084301,
	"reward_std": 0.3384963124990463,
	"rewards/accuracy_reward": 0.2083333358168602,
	"rewards/format_reward": 0.6145833432674408,
	"step": 79
	},
	{
	"completion_length": 3421.666748046875,
	"entropy": 0.5087890625,
	"epoch": 0.09142857142857143,
	"grad_norm": 0.13740910589694977,
	"kl": 0.003353118896484375,
	"learning_rate": 8.780358823396352e-07,
	"loss": 0.0001,
	"reward": 0.6666666939854622,
	"reward_std": 0.408274307847023,
	"rewards/accuracy_reward": 0.25000001303851604,
	"rewards/format_reward": 0.416666679084301,
	"step": 80
	},
	{
	"completion_length": 3048.104217529297,
	"entropy": 0.58544921875,
	"epoch": 0.09257142857142857,
	"grad_norm": 0.13280166685581207,
	"kl": 0.006072998046875,
	"learning_rate": 8.737029101523929e-07,
	"loss": 0.0002,
	"reward": 0.5416666716337204,
	"reward_std": 0.29809625819325447,
	"rewards/accuracy_reward": 0.1354166679084301,
	"rewards/format_reward": 0.4062500149011612,
	"step": 81
	},
	{
	"completion_length": 2573.3126220703125,
	"entropy": 0.42626953125,
	"epoch": 0.09371428571428571,
	"grad_norm": 0.1755312979221344,
	"kl": 0.0029544830322265625,
	"learning_rate": 8.693068314414344e-07,
	"loss": 0.0001,
	"reward": 0.8437500149011612,
	"reward_std": 0.3547321856021881,
	"rewards/accuracy_reward": 0.3229166716337204,
	"rewards/format_reward": 0.5208333432674408,
	"step": 82
	},
	{
	"completion_length": 3012.9271240234375,
	"entropy": 0.48291015625,
	"epoch": 0.09485714285714286,
	"grad_norm": 0.13794995844364166,
	"kl": 0.0030269622802734375,
	"learning_rate": 8.648485032310144e-07,
	"loss": 0.0001,
	"reward": 0.5208333432674408,
	"reward_std": 0.3228641413152218,
	"rewards/accuracy_reward": 0.1666666679084301,
	"rewards/format_reward": 0.3541666716337204,
	"step": 83
	},
	{
	"completion_length": 3144.791748046875,
	"entropy": 0.46923828125,
	"epoch": 0.096,
	"grad_norm": 0.12894625961780548,
	"kl": 0.0023136138916015625,
	"learning_rate": 8.603287946810513e-07,
	"loss": 0.0001,
	"reward": 0.6979166902601719,
	"reward_std": 0.5448310598731041,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.4583333469927311,
	"step": 84
	},
	{
	"completion_length": 2702.4583740234375,
	"entropy": 0.3408203125,
	"epoch": 0.09714285714285714,
	"grad_norm": 0.10937459766864777,
	"kl": 0.002269744873046875,
	"learning_rate": 8.557485869176825e-07,
	"loss": 0.0001,
	"reward": 0.7604166939854622,
	"reward_std": 0.47234033048152924,
	"rewards/accuracy_reward": 0.15625000186264515,
	"rewards/format_reward": 0.6041666865348816,
	"step": 85
	},
	{
	"completion_length": 2702.3959350585938,
	"entropy": 0.48193359375,
	"epoch": 0.09828571428571428,
	"grad_norm": 0.14910289645195007,
	"kl": 0.004451751708984375,
	"learning_rate": 8.511087728614862e-07,
	"loss": 0.0002,
	"reward": 0.625,
	"reward_std": 0.2315434329211712,
	"rewards/accuracy_reward": 0.12500000558793545,
	"rewards/format_reward": 0.5000000074505806,
	"step": 86
	},
	{
	"completion_length": 2416.2709045410156,
	"entropy": 0.44677734375,
	"epoch": 0.09942857142857142,
	"grad_norm": 0.215481698513031,
	"kl": 0.004787445068359375,
	"learning_rate": 8.464102570534061e-07,
	"loss": 0.0002,
	"reward": 0.8750000298023224,
	"reward_std": 0.4938344843685627,
	"rewards/accuracy_reward": 0.2083333395421505,
	"rewards/format_reward": 0.6666666865348816,
	"step": 87
	},
	{
	"completion_length": 2382.1875610351562,
	"entropy": 0.4248046875,
	"epoch": 0.10057142857142858,
	"grad_norm": 0.19311273097991943,
	"kl": 0.00421142578125,
	"learning_rate": 8.416539554784089e-07,
	"loss": 0.0002,
	"reward": 0.9270833730697632,
	"reward_std": 0.6074926629662514,
	"rewards/accuracy_reward": 0.3020833358168602,
	"rewards/format_reward": 0.6250000149011612,
	"step": 88
	},
	{
	"completion_length": 2669.0209350585938,
	"entropy": 0.3544921875,
	"epoch": 0.10171428571428572,
	"grad_norm": 0.15478843450546265,
	"kl": 0.003444671630859375,
	"learning_rate": 8.368407953869103e-07,
	"loss": 0.0001,
	"reward": 0.6875000223517418,
	"reward_std": 0.4951842427253723,
	"rewards/accuracy_reward": 0.13541666977107525,
	"rewards/format_reward": 0.5520833656191826,
	"step": 89
	},
	{
	"completion_length": 2330.072967529297,
	"entropy": 0.6162109375,
	"epoch": 0.10285714285714286,
	"grad_norm": 0.14878880977630615,
	"kl": 0.01177978515625,
	"learning_rate": 8.319717151140072e-07,
	"loss": 0.0005,
	"reward": 0.6770833656191826,
	"reward_std": 0.27013952285051346,
	"rewards/accuracy_reward": 0.07291666883975267,
	"rewards/format_reward": 0.6041666744276881,
	"step": 90
	},
	{
	"completion_length": 2697.4375,
	"entropy": 0.44921875,
	"epoch": 0.104,
	"grad_norm": 0.1833600103855133,
	"kl": 0.005588531494140625,
	"learning_rate": 8.270476638965461e-07,
	"loss": 0.0002,
	"reward": 0.8750000298023224,
	"reward_std": 0.5495730713009834,
	"rewards/accuracy_reward": 0.260416679084301,
	"rewards/format_reward": 0.6145833507180214,
	"step": 91
	},
	{
	"completion_length": 2586.010498046875,
	"entropy": 0.39111328125,
	"epoch": 0.10514285714285715,
	"grad_norm": 0.14938902854919434,
	"kl": 0.007785797119140625,
	"learning_rate": 8.220696016880687e-07,
	"loss": 0.0003,
	"reward": 0.687500037252903,
	"reward_std": 0.3853628858923912,
	"rewards/accuracy_reward": 0.1250000074505806,
	"rewards/format_reward": 0.5625000074505806,
	"step": 92
	},
	{
	"completion_length": 3562.0000610351562,
	"entropy": 0.625,
	"epoch": 0.10628571428571429,
	"grad_norm": 0.1706770658493042,
	"kl": 0.0075836181640625,
	"learning_rate": 8.170384989716657e-07,
	"loss": 0.0003,
	"reward": 0.1354166679084301,
	"reward_std": 0.1874575838446617,
	"rewards/accuracy_reward": 0.0,
	"rewards/format_reward": 0.1354166679084301,
	"step": 93
	},
	{
	"completion_length": 2885.6876220703125,
	"entropy": 0.568359375,
	"epoch": 0.10742857142857143,
	"grad_norm": 0.12106288969516754,
	"kl": 0.005161285400390625,
	"learning_rate": 8.119553365707802e-07,
	"loss": 0.0002,
	"reward": 0.6562500149011612,
	"reward_std": 0.31557222083210945,
	"rewards/accuracy_reward": 0.22916666697710752,
	"rewards/format_reward": 0.4270833432674408,
	"step": 94
	},
	{
	"completion_length": 3645.1146850585938,
	"entropy": 0.4736328125,
	"epoch": 0.10857142857142857,
	"grad_norm": 0.0870869979262352,
	"kl": 0.0027751922607421875,
	"learning_rate": 8.068211054579943e-07,
	"loss": 0.0001,
	"reward": 0.4270833460614085,
	"reward_std": 0.4592607915401459,
	"rewards/accuracy_reward": 0.13541667442768812,
	"rewards/format_reward": 0.2916666744276881,
	"step": 95
	},
	{
	"completion_length": 2586.604217529297,
	"entropy": 0.39990234375,
	"epoch": 0.10971428571428571,
	"grad_norm": 0.16784177720546722,
	"kl": 0.0048675537109375,
	"learning_rate": 8.01636806561836e-07,
	"loss": 0.0002,
	"reward": 0.8854166865348816,
	"reward_std": 0.5198706425726414,
	"rewards/accuracy_reward": 0.31250000558793545,
	"rewards/format_reward": 0.572916679084301,
	"step": 96
	},
	{
	"completion_length": 2758.572998046875,
	"entropy": 0.4267578125,
	"epoch": 0.11085714285714286,
	"grad_norm": 0.21689672768115997,
	"kl": 0.003742218017578125,
	"learning_rate": 7.964034505716476e-07,
	"loss": 0.0001,
	"reward": 0.802083358168602,
	"reward_std": 0.5127636715769768,
	"rewards/accuracy_reward": 0.23958333861082792,
	"rewards/format_reward": 0.5625000149011612,
	"step": 97
	},
	{
	"completion_length": 2189.7395935058594,
	"entropy": 0.34521484375,
	"epoch": 0.112,
	"grad_norm": 0.17968373000621796,
	"kl": 0.003505706787109375,
	"learning_rate": 7.911220577405484e-07,
	"loss": 0.0001,
	"reward": 0.84375,
	"reward_std": 0.23535311594605446,
	"rewards/accuracy_reward": 0.15625000093132257,
	"rewards/format_reward": 0.6875000074505806,
	"step": 98
	},
	{
	"completion_length": 2465.3646240234375,
	"entropy": 0.38818359375,
	"epoch": 0.11314285714285714,
	"grad_norm": 0.16559617221355438,
	"kl": 0.004673004150390625,
	"learning_rate": 7.857936576865356e-07,
	"loss": 0.0002,
	"reward": 0.9166666716337204,
	"reward_std": 0.5209992416203022,
	"rewards/accuracy_reward": 0.3541666716337204,
	"rewards/format_reward": 0.5625000074505806,
	"step": 99
	},
	{
	"completion_length": 2335.166717529297,
	"entropy": 0.379150390625,
	"epoch": 0.11428571428571428,
	"grad_norm": 0.14200669527053833,
	"kl": 0.005016326904296875,
	"learning_rate": 7.804192891917571e-07,
	"loss": 0.0002,
	"reward": 1.0625000298023224,
	"reward_std": 0.47875121980905533,
	"rewards/accuracy_reward": 0.3958333507180214,
	"rewards/format_reward": 0.6666666865348816,
	"step": 100
	},
	{
	"completion_length": 2051.1459350585938,
	"entropy": 0.426513671875,
	"epoch": 0.11542857142857142,
	"grad_norm": 0.23151825368404388,
	"kl": 0.0040740966796875,
	"learning_rate": 7.75e-07,
	"loss": 0.0002,
	"reward": 0.8437500149011612,
	"reward_std": 0.22601452097296715,
	"rewards/accuracy_reward": 0.1458333432674408,
	"rewards/format_reward": 0.6979166716337204,
	"step": 101
	},
	{
	"completion_length": 1650.8438110351562,
	"entropy": 0.356201171875,
	"epoch": 0.11657142857142858,
	"grad_norm": 0.09349505603313446,
	"kl": 0.0050201416015625,
	"learning_rate": 7.695368466124296e-07,
	"loss": 0.0002,
	"reward": 0.895833358168602,
	"reward_std": 0.2152964137494564,
	"rewards/accuracy_reward": 0.07291666977107525,
	"rewards/format_reward": 0.8229166865348816,
	"step": 102
	},
	{
	"completion_length": 1967.0833892822266,
	"entropy": 0.361328125,
	"epoch": 0.11771428571428572,
	"grad_norm": 0.16049090027809143,
	"kl": 0.0059795379638671875,
	"learning_rate": 7.640308940816239e-07,
	"loss": 0.0002,
	"reward": 1.0937500298023224,
	"reward_std": 0.3835059180855751,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.8541666865348816,
	"step": 103
	},
	{
	"completion_length": 2380.3125610351562,
	"entropy": 0.44921875,
	"epoch": 0.11885714285714286,
	"grad_norm": 0.1609274446964264,
	"kl": 0.0071868896484375,
	"learning_rate": 7.584832158039378e-07,
	"loss": 0.0003,
	"reward": 0.7291666865348816,
	"reward_std": 0.40659596025943756,
	"rewards/accuracy_reward": 0.12500000186264515,
	"rewards/format_reward": 0.6041666865348816,
	"step": 104
	},
	{
	"completion_length": 2000.1876068115234,
	"entropy": 0.34033203125,
	"epoch": 0.12,
	"grad_norm": 0.19138775765895844,
	"kl": 0.00435638427734375,
	"learning_rate": 7.528948933102438e-07,
	"loss": 0.0002,
	"reward": 1.0312500149011612,
	"reward_std": 0.5785520151257515,
	"rewards/accuracy_reward": 0.3229166744276881,
	"rewards/format_reward": 0.7083333432674408,
	"step": 105
	},
	{
	"completion_length": 2208.072967529297,
	"entropy": 0.31982421875,
	"epoch": 0.12114285714285715,
	"grad_norm": 0.09388583153486252,
	"kl": 0.0026397705078125,
	"learning_rate": 7.472670160550848e-07,
	"loss": 0.0001,
	"reward": 1.1458333656191826,
	"reward_std": 0.35796716436743736,
	"rewards/accuracy_reward": 0.4375,
	"rewards/format_reward": 0.7083333507180214,
	"step": 106
	},
	{
	"completion_length": 2212.6771545410156,
	"entropy": 0.52099609375,
	"epoch": 0.12228571428571429,
	"grad_norm": 0.19971498847007751,
	"kl": 0.006237030029296875,
	"learning_rate": 7.416006812042827e-07,
	"loss": 0.0002,
	"reward": 0.8333333730697632,
	"reward_std": 0.3842815235257149,
	"rewards/accuracy_reward": 0.1145833358168602,
	"rewards/format_reward": 0.7187500298023224,
	"step": 107
	},
	{
	"completion_length": 2266.5313110351562,
	"entropy": 0.384765625,
	"epoch": 0.12342857142857143,
	"grad_norm": 0.1431254744529724,
	"kl": 0.00372314453125,
	"learning_rate": 7.358969934210438e-07,
	"loss": 0.0001,
	"reward": 0.9270833535119891,
	"reward_std": 0.38414933159947395,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.6875000102445483,
	"step": 108
	},
	{
	"completion_length": 2486.4584350585938,
	"entropy": 0.381103515625,
	"epoch": 0.12457142857142857,
	"grad_norm": 0.1384974718093872,
	"kl": 0.004756927490234375,
	"learning_rate": 7.301570646506027e-07,
	"loss": 0.0002,
	"reward": 0.6875000149011612,
	"reward_std": 0.3808614909648895,
	"rewards/accuracy_reward": 0.14583333674818277,
	"rewards/format_reward": 0.541666679084301,
	"step": 109
	},
	{
	"completion_length": 2373.7500610351562,
	"entropy": 0.43359375,
	"epoch": 0.12571428571428572,
	"grad_norm": 0.18450307846069336,
	"kl": 0.004810333251953125,
	"learning_rate": 7.243820139034464e-07,
	"loss": 0.0002,
	"reward": 0.9166666865348816,
	"reward_std": 0.5121813043951988,
	"rewards/accuracy_reward": 0.23958333767950535,
	"rewards/format_reward": 0.677083358168602,
	"step": 110
	},
	{
	"completion_length": 2390.156280517578,
	"entropy": 0.482666015625,
	"epoch": 0.12685714285714286,
	"grad_norm": 0.14442622661590576,
	"kl": 0.00649261474609375,
	"learning_rate": 7.185729670371604e-07,
	"loss": 0.0003,
	"reward": 0.7604166865348816,
	"reward_std": 0.3381837457418442,
	"rewards/accuracy_reward": 0.1666666753590107,
	"rewards/format_reward": 0.5937500074505806,
	"step": 111
	},
	{
	"completion_length": 2708.979248046875,
	"entropy": 0.46240234375,
	"epoch": 0.128,
	"grad_norm": 0.15874600410461426,
	"kl": 0.00481414794921875,
	"learning_rate": 7.127310565369415e-07,
	"loss": 0.0002,
	"reward": 0.8958333432674408,
	"reward_std": 0.41653573513031006,
	"rewards/accuracy_reward": 0.2916666707023978,
	"rewards/format_reward": 0.6041666939854622,
	"step": 112
	},
	{
	"completion_length": 1425.0208435058594,
	"entropy": 0.34765625,
	"epoch": 0.12914285714285714,
	"grad_norm": 0.2752454876899719,
	"kl": 0.01012420654296875,
	"learning_rate": 7.068574212948169e-07,
	"loss": 0.0004,
	"reward": 1.1041667014360428,
	"reward_std": 0.4169319197535515,
	"rewards/accuracy_reward": 0.2708333432674408,
	"rewards/format_reward": 0.833333358168602,
	"step": 113
	},
	{
	"completion_length": 1730.0833587646484,
	"entropy": 0.32763671875,
	"epoch": 0.13028571428571428,
	"grad_norm": 0.1002146303653717,
	"kl": 0.00527191162109375,
	"learning_rate": 7.009532063876148e-07,
	"loss": 0.0002,
	"reward": 0.9895833730697632,
	"reward_std": 0.24960162490606308,
	"rewards/accuracy_reward": 0.09375000279396772,
	"rewards/format_reward": 0.8958333432674408,
	"step": 114
	},
	{
	"completion_length": 2451.6771240234375,
	"entropy": 0.44873046875,
	"epoch": 0.13142857142857142,
	"grad_norm": 0.09600935876369476,
	"kl": 0.006961822509765625,
	"learning_rate": 6.950195628537299e-07,
	"loss": 0.0003,
	"reward": 0.7187500223517418,
	"reward_std": 0.19398127868771553,
	"rewards/accuracy_reward": 0.15625,
	"rewards/format_reward": 0.5625000074505806,
	"step": 115
	},
	{
	"completion_length": 3191.8751220703125,
	"entropy": 0.5556640625,
	"epoch": 0.13257142857142856,
	"grad_norm": 0.19031184911727905,
	"kl": 0.007049560546875,
	"learning_rate": 6.890576474687263e-07,
	"loss": 0.0003,
	"reward": 0.4479166939854622,
	"reward_std": 0.5110370628535748,
	"rewards/accuracy_reward": 0.13541667070239782,
	"rewards/format_reward": 0.3125000111758709,
	"step": 116
	},
	{
	"completion_length": 2564.8021240234375,
	"entropy": 0.493896484375,
	"epoch": 0.1337142857142857,
	"grad_norm": 0.2184651792049408,
	"kl": 0.009033203125,
	"learning_rate": 6.83068622519821e-07,
	"loss": 0.0004,
	"reward": 0.7187500223517418,
	"reward_std": 0.5183624178171158,
	"rewards/accuracy_reward": 0.11458333395421505,
	"rewards/format_reward": 0.6041666939854622,
	"step": 117
	},
	{
	"completion_length": 2493.3333740234375,
	"entropy": 0.38720703125,
	"epoch": 0.13485714285714287,
	"grad_norm": 0.12824109196662903,
	"kl": 0.00505828857421875,
	"learning_rate": 6.770536555792944e-07,
	"loss": 0.0002,
	"reward": 0.9375000298023224,
	"reward_std": 0.46352487802505493,
	"rewards/accuracy_reward": 0.28125000558793545,
	"rewards/format_reward": 0.6562500149011612,
	"step": 118
	},
	{
	"completion_length": 1656.8854522705078,
	"entropy": 0.4052734375,
	"epoch": 0.136,
	"grad_norm": 0.12852801382541656,
	"kl": 0.00701141357421875,
	"learning_rate": 6.710139192768694e-07,
	"loss": 0.0003,
	"reward": 1.0312500298023224,
	"reward_std": 0.25884300470352173,
	"rewards/accuracy_reward": 0.2395833358168602,
	"rewards/format_reward": 0.7916666865348816,
	"step": 119
	},
	{
	"completion_length": 1066.7917175292969,
	"entropy": 0.2958984375,
	"epoch": 0.13714285714285715,
	"grad_norm": 0.14502935111522675,
	"kl": 0.007476806640625,
	"learning_rate": 6.649505910711058e-07,
	"loss": 0.0003,
	"reward": 1.1979166865348816,
	"reward_std": 0.27546053379774094,
	"rewards/accuracy_reward": 0.2604166669771075,
	"rewards/format_reward": 0.9375000149011612,
	"step": 120
	},
	{
	"completion_length": 999.8542022705078,
	"entropy": 0.2783203125,
	"epoch": 0.1382857142857143,
	"grad_norm": 0.1992115080356598,
	"kl": 0.00730133056640625,
	"learning_rate": 6.588648530198504e-07,
	"loss": 0.0003,
	"reward": 1.2500000149011612,
	"reward_std": 0.29015830904245377,
	"rewards/accuracy_reward": 0.3020833386108279,
	"rewards/format_reward": 0.9479166865348816,
	"step": 121
	},
	{
	"completion_length": 2167.0834197998047,
	"entropy": 0.432373046875,
	"epoch": 0.13942857142857143,
	"grad_norm": 0.1561378836631775,
	"kl": 0.0062408447265625,
	"learning_rate": 6.527578915497951e-07,
	"loss": 0.0002,
	"reward": 0.9687500298023224,
	"reward_std": 0.4494870528578758,
	"rewards/accuracy_reward": 0.2604166781529784,
	"rewards/format_reward": 0.7083333432674408,
	"step": 122
	},
	{
	"completion_length": 2166.729248046875,
	"entropy": 0.4207763671875,
	"epoch": 0.14057142857142857,
	"grad_norm": 0.18212474882602692,
	"kl": 0.005710601806640625,
	"learning_rate": 6.466308972251785e-07,
	"loss": 0.0002,
	"reward": 0.9270833507180214,
	"reward_std": 0.37269312888383865,
	"rewards/accuracy_reward": 0.2083333358168602,
	"rewards/format_reward": 0.7187500074505806,
	"step": 123
	},
	{
	"completion_length": 1833.7396240234375,
	"entropy": 0.27783203125,
	"epoch": 0.1417142857142857,
	"grad_norm": 0.19929192960262299,
	"kl": 0.0140838623046875,
	"learning_rate": 6.404850645156841e-07,
	"loss": 0.0006,
	"reward": 1.1145833730697632,
	"reward_std": 0.5214307978749275,
	"rewards/accuracy_reward": 0.2604166679084301,
	"rewards/format_reward": 0.8541666865348816,
	"step": 124
	},
	{
	"completion_length": 2578.0209350585938,
	"entropy": 0.45166015625,
	"epoch": 0.14285714285714285,
	"grad_norm": 0.1536300778388977,
	"kl": 0.00638580322265625,
	"learning_rate": 6.343215915635761e-07,
	"loss": 0.0003,
	"reward": 0.5625000149011612,
	"reward_std": 0.30013205483555794,
	"rewards/accuracy_reward": 0.11458333861082792,
	"rewards/format_reward": 0.4479166865348816,
	"step": 125
	},
	{
	"completion_length": 2283.6875610351562,
	"entropy": 0.37451171875,
	"epoch": 0.144,
	"grad_norm": 0.16426944732666016,
	"kl": 0.005584716796875,
	"learning_rate": 6.281416799501187e-07,
	"loss": 0.0002,
	"reward": 0.9479167014360428,
	"reward_std": 0.5797486528754234,
	"rewards/accuracy_reward": 0.25000000558793545,
	"rewards/format_reward": 0.6979166865348816,
	"step": 126
	},
	{
	"completion_length": 1901.9063110351562,
	"entropy": 0.381591796875,
	"epoch": 0.14514285714285713,
	"grad_norm": 0.15447713434696198,
	"kl": 0.00717926025390625,
	"learning_rate": 6.219465344613258e-07,
	"loss": 0.0003,
	"reward": 0.8541666865348816,
	"reward_std": 0.3032348155975342,
	"rewards/accuracy_reward": 0.07291666977107525,
	"rewards/format_reward": 0.7812500149011612,
	"step": 127
	},
	{
	"completion_length": 1890.5729675292969,
	"entropy": 0.397705078125,
	"epoch": 0.1462857142857143,
	"grad_norm": 0.23616060614585876,
	"kl": 0.006561279296875,
	"learning_rate": 6.157373628530852e-07,
	"loss": 0.0003,
	"reward": 1.1041666865348816,
	"reward_std": 0.43167490512132645,
	"rewards/accuracy_reward": 0.3333333432674408,
	"rewards/format_reward": 0.770833358168602,
	"step": 128
	},
	{
	"completion_length": 2441.8021850585938,
	"entropy": 0.466796875,
	"epoch": 0.14742857142857144,
	"grad_norm": 0.19474731385707855,
	"kl": 0.00809478759765625,
	"learning_rate": 6.095153756157051e-07,
	"loss": 0.0003,
	"reward": 0.8125000447034836,
	"reward_std": 0.5053007081151009,
	"rewards/accuracy_reward": 0.2083333358168602,
	"rewards/format_reward": 0.6041666865348816,
	"step": 129
	},
	{
	"completion_length": 2335.4063110351562,
	"entropy": 0.4462890625,
	"epoch": 0.14857142857142858,
	"grad_norm": 0.2001771628856659,
	"kl": 0.00664520263671875,
	"learning_rate": 6.032817857379256e-07,
	"loss": 0.0003,
	"reward": 0.6875000298023224,
	"reward_std": 0.480606772005558,
	"rewards/accuracy_reward": 0.0937500037252903,
	"rewards/format_reward": 0.5937500149011612,
	"step": 130
	},
	{
	"completion_length": 2002.8438110351562,
	"entropy": 0.427978515625,
	"epoch": 0.14971428571428572,
	"grad_norm": 0.21314886212348938,
	"kl": 0.0078277587890625,
	"learning_rate": 5.97037808470444e-07,
	"loss": 0.0003,
	"reward": 1.0625000447034836,
	"reward_std": 0.5524623095989227,
	"rewards/accuracy_reward": 0.3229166781529784,
	"rewards/format_reward": 0.7395833432674408,
	"step": 131
	},
	{
	"completion_length": 2149.666778564453,
	"entropy": 0.39501953125,
	"epoch": 0.15085714285714286,
	"grad_norm": 0.15732061862945557,
	"kl": 0.0057373046875,
	"learning_rate": 5.907846610890011e-07,
	"loss": 0.0002,
	"reward": 0.9687500298023224,
	"reward_std": 0.48508264869451523,
	"rewards/accuracy_reward": 0.2812500102445483,
	"rewards/format_reward": 0.6875000149011612,
	"step": 132
	},
	{
	"completion_length": 2231.500030517578,
	"entropy": 0.435546875,
	"epoch": 0.152,
	"grad_norm": 0.21705371141433716,
	"kl": 0.00888824462890625,
	"learning_rate": 5.845235626570683e-07,
	"loss": 0.0004,
	"reward": 0.7708333395421505,
	"reward_std": 0.4052763059735298,
	"rewards/accuracy_reward": 0.14583333395421505,
	"rewards/format_reward": 0.625,
	"step": 133
	},
	{
	"completion_length": 2071.229278564453,
	"entropy": 0.4912109375,
	"epoch": 0.15314285714285714,
	"grad_norm": 0.18239766359329224,
	"kl": 0.01198577880859375,
	"learning_rate": 5.78255733788191e-07,
	"loss": 0.0005,
	"reward": 1.0208333730697632,
	"reward_std": 0.47505422681570053,
	"rewards/accuracy_reward": 0.2812500037252903,
	"rewards/format_reward": 0.7395833432674408,
	"step": 134
	},
	{
	"completion_length": 1155.7292175292969,
	"entropy": 0.304443359375,
	"epoch": 0.15428571428571428,
	"grad_norm": 0.1679978370666504,
	"kl": 0.01029205322265625,
	"learning_rate": 5.71982396408026e-07,
	"loss": 0.0004,
	"reward": 1.416666716337204,
	"reward_std": 0.4091631546616554,
	"rewards/accuracy_reward": 0.5000000111758709,
	"rewards/format_reward": 0.9166666716337204,
	"step": 135
	},
	{
	"completion_length": 1356.5521545410156,
	"entropy": 0.282470703125,
	"epoch": 0.15542857142857142,
	"grad_norm": 0.18188215792179108,
	"kl": 0.00759124755859375,
	"learning_rate": 5.657047735161255e-07,
	"loss": 0.0003,
	"reward": 1.1979166865348816,
	"reward_std": 0.3688688538968563,
	"rewards/accuracy_reward": 0.2708333358168602,
	"rewards/format_reward": 0.9270833432674408,
	"step": 136
	},
	{
	"completion_length": 1961.9167175292969,
	"entropy": 0.324462890625,
	"epoch": 0.15657142857142858,
	"grad_norm": 0.1938006430864334,
	"kl": 0.0077667236328125,
	"learning_rate": 5.594240889475106e-07,
	"loss": 0.0003,
	"reward": 0.833333358168602,
	"reward_std": 0.4214525818824768,
	"rewards/accuracy_reward": 0.08333333674818277,
	"rewards/format_reward": 0.7500000298023224,
	"step": 137
	},
	{
	"completion_length": 1700.7396240234375,
	"entropy": 0.302001953125,
	"epoch": 0.15771428571428572,
	"grad_norm": 0.16465067863464355,
	"kl": 0.00738525390625,
	"learning_rate": 5.531415671340826e-07,
	"loss": 0.0003,
	"reward": 1.0208333432674408,
	"reward_std": 0.37441620975732803,
	"rewards/accuracy_reward": 0.1979166753590107,
	"rewards/format_reward": 0.8229166865348816,
	"step": 138
	},
	{
	"completion_length": 1888.5208435058594,
	"entropy": 0.38720703125,
	"epoch": 0.15885714285714286,
	"grad_norm": 0.20309647917747498,
	"kl": 0.009521484375,
	"learning_rate": 5.468584328659172e-07,
	"loss": 0.0004,
	"reward": 1.0625000298023224,
	"reward_std": 0.43142497539520264,
	"rewards/accuracy_reward": 0.21875001024454832,
	"rewards/format_reward": 0.8437500298023224,
	"step": 139
	},
	{
	"completion_length": 1912.197998046875,
	"entropy": 0.442138671875,
	"epoch": 0.16,
	"grad_norm": 0.3316217064857483,
	"kl": 0.01258087158203125,
	"learning_rate": 5.405759110524894e-07,
	"loss": 0.0005,
	"reward": 0.9270833879709244,
	"reward_std": 0.42255595326423645,
	"rewards/accuracy_reward": 0.16666666883975267,
	"rewards/format_reward": 0.7604166865348816,
	"step": 140
	},
	{
	"completion_length": 1228.6042175292969,
	"entropy": 0.244873046875,
	"epoch": 0.16114285714285714,
	"grad_norm": 0.14592112600803375,
	"kl": 0.0072784423828125,
	"learning_rate": 5.342952264838747e-07,
	"loss": 0.0003,
	"reward": 1.2083333730697632,
	"reward_std": 0.3421749100089073,
	"rewards/accuracy_reward": 0.23958333395421505,
	"rewards/format_reward": 0.9687500298023224,
	"step": 141
	},
	{
	"completion_length": 1981.0209350585938,
	"entropy": 0.40869140625,
	"epoch": 0.16228571428571428,
	"grad_norm": 0.21422992646694183,
	"kl": 0.0090179443359375,
	"learning_rate": 5.28017603591974e-07,
	"loss": 0.0004,
	"reward": 0.9895833730697632,
	"reward_std": 0.4437461569905281,
	"rewards/accuracy_reward": 0.1562500037252903,
	"rewards/format_reward": 0.833333358168602,
	"step": 142
	},
	{
	"completion_length": 1735.0104675292969,
	"entropy": 0.399658203125,
	"epoch": 0.16342857142857142,
	"grad_norm": 0.2593076825141907,
	"kl": 0.01113128662109375,
	"learning_rate": 5.21744266211809e-07,
	"loss": 0.0004,
	"reward": 1.03125,
	"reward_std": 0.4072144068777561,
	"rewards/accuracy_reward": 0.1458333358168602,
	"rewards/format_reward": 0.8854166716337204,
	"step": 143
	},
	{
	"completion_length": 1934.3229675292969,
	"entropy": 0.434326171875,
	"epoch": 0.16457142857142856,
	"grad_norm": 0.2749219238758087,
	"kl": 0.01078033447265625,
	"learning_rate": 5.154764373429315e-07,
	"loss": 0.0004,
	"reward": 1.0625000149011612,
	"reward_std": 0.551102414727211,
	"rewards/accuracy_reward": 0.29166666977107525,
	"rewards/format_reward": 0.7708333507180214,
	"step": 144
	},
	{
	"completion_length": 1198.5937805175781,
	"entropy": 0.274169921875,
	"epoch": 0.1657142857142857,
	"grad_norm": 0.19994103908538818,
	"kl": 0.010986328125,
	"learning_rate": 5.09215338910999e-07,
	"loss": 0.0004,
	"reward": 1.2187500447034836,
	"reward_std": 0.374411478638649,
	"rewards/accuracy_reward": 0.3020833395421505,
	"rewards/format_reward": 0.9166666865348816,
	"step": 145
	},
	{
	"completion_length": 1426.0521240234375,
	"entropy": 0.300048828125,
	"epoch": 0.16685714285714287,
	"grad_norm": 0.1441003829240799,
	"kl": 0.0077667236328125,
	"learning_rate": 5.02962191529556e-07,
	"loss": 0.0003,
	"reward": 1.0312500298023224,
	"reward_std": 0.2671857923269272,
	"rewards/accuracy_reward": 0.1145833358168602,
	"rewards/format_reward": 0.9166666865348816,
	"step": 146
	},
	{
	"completion_length": 1535.447982788086,
	"entropy": 0.31689453125,
	"epoch": 0.168,
	"grad_norm": 0.19958704710006714,
	"kl": 0.01012420654296875,
	"learning_rate": 4.967182142620745e-07,
	"loss": 0.0004,
	"reward": 1.1562500298023224,
	"reward_std": 0.39162378013134,
	"rewards/accuracy_reward": 0.2812500074505806,
	"rewards/format_reward": 0.8750000149011612,
	"step": 147
	},
	{
	"completion_length": 1264.7396545410156,
	"entropy": 0.24658203125,
	"epoch": 0.16914285714285715,
	"grad_norm": 0.10701873153448105,
	"kl": 0.008941650390625,
	"learning_rate": 4.904846243842949e-07,
	"loss": 0.0004,
	"reward": 1.1354166865348816,
	"reward_std": 0.15690934658050537,
	"rewards/accuracy_reward": 0.1875,
	"rewards/format_reward": 0.9479166716337204,
	"step": 148
	},
	{
	"completion_length": 2025.3021240234375,
	"entropy": 0.352783203125,
	"epoch": 0.1702857142857143,
	"grad_norm": 0.13325975835323334,
	"kl": 0.008880615234375,
	"learning_rate": 4.842626371469149e-07,
	"loss": 0.0004,
	"reward": 1.1458333730697632,
	"reward_std": 0.3877560868859291,
	"rewards/accuracy_reward": 0.3229166716337204,
	"rewards/format_reward": 0.8229166865348816,
	"step": 149
	},
	{
	"completion_length": 1229.2708740234375,
	"entropy": 0.274658203125,
	"epoch": 0.17142857142857143,
	"grad_norm": 0.1998661607503891,
	"kl": 0.0081634521484375,
	"learning_rate": 4.780534655386743e-07,
	"loss": 0.0003,
	"reward": 1.1354166865348816,
	"reward_std": 0.4279330112040043,
	"rewards/accuracy_reward": 0.2083333432674408,
	"rewards/format_reward": 0.927083358168602,
	"step": 150
	},
	{
	"completion_length": 1687.1146240234375,
	"entropy": 0.4375,
	"epoch": 0.17257142857142857,
	"grad_norm": 0.25493502616882324,
	"kl": 0.0125579833984375,
	"learning_rate": 4.7185832004988133e-07,
	"loss": 0.0005,
	"reward": 1.114583358168602,
	"reward_std": 0.5058320835232735,
	"rewards/accuracy_reward": 0.312500006519258,
	"rewards/format_reward": 0.802083358168602,
	"step": 151
	},
	{
	"completion_length": 1766.2083740234375,
	"entropy": 0.41552734375,
	"epoch": 0.1737142857142857,
	"grad_norm": 0.24902759492397308,
	"kl": 0.010467529296875,
	"learning_rate": 4.656784084364238e-07,
	"loss": 0.0004,
	"reward": 0.9895833432674408,
	"reward_std": 0.4082007445394993,
	"rewards/accuracy_reward": 0.19791666697710752,
	"rewards/format_reward": 0.7916666865348816,
	"step": 152
	},
	{
	"completion_length": 1433.1562805175781,
	"entropy": 0.31591796875,
	"epoch": 0.17485714285714285,
	"grad_norm": 0.21754246950149536,
	"kl": 0.0152740478515625,
	"learning_rate": 4.59514935484316e-07,
	"loss": 0.0006,
	"reward": 1.020833358168602,
	"reward_std": 0.2934442237019539,
	"rewards/accuracy_reward": 0.12500000279396772,
	"rewards/format_reward": 0.895833358168602,
	"step": 153
	},
	{
	"completion_length": 2112.354248046875,
	"entropy": 0.39599609375,
	"epoch": 0.176,
	"grad_norm": 0.20787468552589417,
	"kl": 0.009765625,
	"learning_rate": 4.5336910277482155e-07,
	"loss": 0.0004,
	"reward": 1.0833333432674408,
	"reward_std": 0.4751042574644089,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.7916666716337204,
	"step": 154
	},
	{
	"completion_length": 1740.2500610351562,
	"entropy": 0.38623046875,
	"epoch": 0.17714285714285713,
	"grad_norm": 0.19822287559509277,
	"kl": 0.0122833251953125,
	"learning_rate": 4.4724210845020494e-07,
	"loss": 0.0005,
	"reward": 1.020833358168602,
	"reward_std": 0.41686780750751495,
	"rewards/accuracy_reward": 0.16666666977107525,
	"rewards/format_reward": 0.8541666865348816,
	"step": 155
	},
	{
	"completion_length": 1723.6146545410156,
	"entropy": 0.29345703125,
	"epoch": 0.1782857142857143,
	"grad_norm": 0.12867745757102966,
	"kl": 0.00856781005859375,
	"learning_rate": 4.4113514698014953e-07,
	"loss": 0.0003,
	"reward": 1.1458334028720856,
	"reward_std": 0.4736599698662758,
	"rewards/accuracy_reward": 0.322916679084301,
	"rewards/format_reward": 0.8229166865348816,
	"step": 156
	},
	{
	"completion_length": 2180.291748046875,
	"entropy": 0.4892578125,
	"epoch": 0.17942857142857144,
	"grad_norm": 0.27378663420677185,
	"kl": 0.0123748779296875,
	"learning_rate": 4.350494089288943e-07,
	"loss": 0.0005,
	"reward": 0.864583358168602,
	"reward_std": 0.4690057747066021,
	"rewards/accuracy_reward": 0.14583333488553762,
	"rewards/format_reward": 0.7187500298023224,
	"step": 157
	},
	{
	"completion_length": 1268.4479675292969,
	"entropy": 0.26611328125,
	"epoch": 0.18057142857142858,
	"grad_norm": 0.15639232099056244,
	"kl": 0.00994873046875,
	"learning_rate": 4.2898608072313045e-07,
	"loss": 0.0004,
	"reward": 1.1458333730697632,
	"reward_std": 0.3376114182174206,
	"rewards/accuracy_reward": 0.18750000558793545,
	"rewards/format_reward": 0.958333358168602,
	"step": 158
	},
	{
	"completion_length": 1842.7188110351562,
	"entropy": 0.332275390625,
	"epoch": 0.18171428571428572,
	"grad_norm": 0.22000983357429504,
	"kl": 0.0113372802734375,
	"learning_rate": 4.2294634442070553e-07,
	"loss": 0.0005,
	"reward": 0.895833358168602,
	"reward_std": 0.43413354456424713,
	"rewards/accuracy_reward": 0.10416667256504297,
	"rewards/format_reward": 0.7916666865348816,
	"step": 159
	},
	{
	"completion_length": 1532.4791870117188,
	"entropy": 0.39111328125,
	"epoch": 0.18285714285714286,
	"grad_norm": 0.5555780529975891,
	"kl": 0.017059326171875,
	"learning_rate": 4.1693137748017915e-07,
	"loss": 0.0007,
	"reward": 1.2291666865348816,
	"reward_std": 0.5317695289850235,
	"rewards/accuracy_reward": 0.3750000149011612,
	"rewards/format_reward": 0.8541666865348816,
	"step": 160
	},
	{
	"completion_length": 1631.375015258789,
	"entropy": 0.3583984375,
	"epoch": 0.184,
	"grad_norm": 0.20350432395935059,
	"kl": 0.01454925537109375,
	"learning_rate": 4.1094235253127374e-07,
	"loss": 0.0006,
	"reward": 1.1458333730697632,
	"reward_std": 0.44703245162963867,
	"rewards/accuracy_reward": 0.25000000558793545,
	"rewards/format_reward": 0.895833358168602,
	"step": 161
	},
	{
	"completion_length": 1646.5208740234375,
	"entropy": 0.4658203125,
	"epoch": 0.18514285714285714,
	"grad_norm": 0.2509794533252716,
	"kl": 0.014892578125,
	"learning_rate": 4.0498043714627006e-07,
	"loss": 0.0006,
	"reward": 1.0104167014360428,
	"reward_std": 0.4695500135421753,
	"rewards/accuracy_reward": 0.19791666977107525,
	"rewards/format_reward": 0.8125000223517418,
	"step": 162
	},
	{
	"completion_length": 1552.0000610351562,
	"entropy": 0.424560546875,
	"epoch": 0.18628571428571428,
	"grad_norm": 0.17314837872982025,
	"kl": 0.0128173828125,
	"learning_rate": 3.9904679361238526e-07,
	"loss": 0.0005,
	"reward": 1.1770833879709244,
	"reward_std": 0.33981742709875107,
	"rewards/accuracy_reward": 0.3541666828095913,
	"rewards/format_reward": 0.8229166865348816,
	"step": 163
	},
	{
	"completion_length": 1373.3333587646484,
	"entropy": 0.320556640625,
	"epoch": 0.18742857142857142,
	"grad_norm": 0.2898624539375305,
	"kl": 0.011077880859375,
	"learning_rate": 3.931425787051832e-07,
	"loss": 0.0004,
	"reward": 1.1562500149011612,
	"reward_std": 0.36444756016135216,
	"rewards/accuracy_reward": 0.2500000037252903,
	"rewards/format_reward": 0.9062500149011612,
	"step": 164
	},
	{
	"completion_length": 1446.5208740234375,
	"entropy": 0.34033203125,
	"epoch": 0.18857142857142858,
	"grad_norm": 0.36863088607788086,
	"kl": 0.0135345458984375,
	"learning_rate": 3.872689434630585e-07,
	"loss": 0.0005,
	"reward": 1.1562500298023224,
	"reward_std": 0.5087258517742157,
	"rewards/accuracy_reward": 0.30208334140479565,
	"rewards/format_reward": 0.8541666865348816,
	"step": 165
	},
	{
	"completion_length": 1569.2500610351562,
	"entropy": 0.2666015625,
	"epoch": 0.18971428571428572,
	"grad_norm": 0.14335811138153076,
	"kl": 0.00957489013671875,
	"learning_rate": 3.8142703296283953e-07,
	"loss": 0.0004,
	"reward": 1.0937500596046448,
	"reward_std": 0.3973645642399788,
	"rewards/accuracy_reward": 0.2395833432674408,
	"rewards/format_reward": 0.8541666865348816,
	"step": 166
	},
	{
	"completion_length": 1177.822982788086,
	"entropy": 0.25244140625,
	"epoch": 0.19085714285714286,
	"grad_norm": 0.11705330014228821,
	"kl": 0.0107421875,
	"learning_rate": 3.7561798609655373e-07,
	"loss": 0.0004,
	"reward": 1.041666716337204,
	"reward_std": 0.18237071484327316,
	"rewards/accuracy_reward": 0.06250000186264515,
	"rewards/format_reward": 0.9791666716337204,
	"step": 167
	},
	{
	"completion_length": 1497.2604370117188,
	"entropy": 0.283203125,
	"epoch": 0.192,
	"grad_norm": 0.22972875833511353,
	"kl": 0.0095367431640625,
	"learning_rate": 3.6984293534939737e-07,
	"loss": 0.0004,
	"reward": 1.1354167014360428,
	"reward_std": 0.3216959089040756,
	"rewards/accuracy_reward": 0.21875000838190317,
	"rewards/format_reward": 0.9166666865348816,
	"step": 168
	},
	{
	"completion_length": 1162.0416870117188,
	"entropy": 0.245849609375,
	"epoch": 0.19314285714285714,
	"grad_norm": 0.1791468858718872,
	"kl": 0.01068878173828125,
	"learning_rate": 3.641030065789562e-07,
	"loss": 0.0004,
	"reward": 1.479166716337204,
	"reward_std": 0.3380242697894573,
	"rewards/accuracy_reward": 0.5208333507180214,
	"rewards/format_reward": 0.9583333432674408,
	"step": 169
	},
	{
	"completion_length": 1761.4792175292969,
	"entropy": 0.392333984375,
	"epoch": 0.19428571428571428,
	"grad_norm": 0.22026270627975464,
	"kl": 0.0135498046875,
	"learning_rate": 3.5839931879571725e-07,
	"loss": 0.0005,
	"reward": 1.1145833432674408,
	"reward_std": 0.25935307145118713,
	"rewards/accuracy_reward": 0.35416666977107525,
	"rewards/format_reward": 0.7604166716337204,
	"step": 170
	},
	{
	"completion_length": 1874.7604675292969,
	"entropy": 0.406982421875,
	"epoch": 0.19542857142857142,
	"grad_norm": 0.18767470121383667,
	"kl": 0.0109100341796875,
	"learning_rate": 3.5273298394491515e-07,
	"loss": 0.0004,
	"reward": 0.9270833730697632,
	"reward_std": 0.3239624425768852,
	"rewards/accuracy_reward": 0.20833334140479565,
	"rewards/format_reward": 0.71875,
	"step": 171
	},
	{
	"completion_length": 1946.0000610351562,
	"entropy": 0.48876953125,
	"epoch": 0.19657142857142856,
	"grad_norm": 0.32672053575515747,
	"kl": 0.0180816650390625,
	"learning_rate": 3.471051066897562e-07,
	"loss": 0.0007,
	"reward": 1.1354166865348816,
	"reward_std": 0.5261635184288025,
	"rewards/accuracy_reward": 0.3958333460614085,
	"rewards/format_reward": 0.7395833432674408,
	"step": 172
	},
	{
	"completion_length": 1126.3541793823242,
	"entropy": 0.27978515625,
	"epoch": 0.1977142857142857,
	"grad_norm": 0.20509202778339386,
	"kl": 0.01155853271484375,
	"learning_rate": 3.4151678419606233e-07,
	"loss": 0.0005,
	"reward": 1.1562500298023224,
	"reward_std": 0.35620374977588654,
	"rewards/accuracy_reward": 0.2395833395421505,
	"rewards/format_reward": 0.9166666716337204,
	"step": 173
	},
	{
	"completion_length": 1285.9167175292969,
	"entropy": 0.331787109375,
	"epoch": 0.19885714285714284,
	"grad_norm": 0.17950935661792755,
	"kl": 0.01363372802734375,
	"learning_rate": 3.359691059183761e-07,
	"loss": 0.0005,
	"reward": 1.2187500447034836,
	"reward_std": 0.3375067636370659,
	"rewards/accuracy_reward": 0.2604166753590107,
	"rewards/format_reward": 0.9583333432674408,
	"step": 174
	},
	{
	"completion_length": 1471.7291870117188,
	"entropy": 0.380615234375,
	"epoch": 0.2,
	"grad_norm": 0.31842005252838135,
	"kl": 0.013336181640625,
	"learning_rate": 3.3046315338757026e-07,
	"loss": 0.0005,
	"reward": 1.0625000149011612,
	"reward_std": 0.361453078687191,
	"rewards/accuracy_reward": 0.1979166716337204,
	"rewards/format_reward": 0.8645833432674408,
	"step": 175
	},
	{
	"completion_length": 1566.8229675292969,
	"entropy": 0.343994140625,
	"epoch": 0.20114285714285715,
	"grad_norm": 0.280519962310791,
	"kl": 0.014129638671875,
	"learning_rate": 3.250000000000001e-07,
	"loss": 0.0006,
	"reward": 1.0520833730697632,
	"reward_std": 0.4207059293985367,
	"rewards/accuracy_reward": 0.16666667349636555,
	"rewards/format_reward": 0.8854166865348816,
	"step": 176
	},
	{
	"completion_length": 1703.625015258789,
	"entropy": 0.453125,
	"epoch": 0.2022857142857143,
	"grad_norm": 0.33665430545806885,
	"kl": 0.013824462890625,
	"learning_rate": 3.195807108082429e-07,
	"loss": 0.0006,
	"reward": 1.083333358168602,
	"reward_std": 0.4203081615269184,
	"rewards/accuracy_reward": 0.250000006519258,
	"rewards/format_reward": 0.8333333432674408,
	"step": 177
	},
	{
	"completion_length": 1527.3021240234375,
	"entropy": 0.39013671875,
	"epoch": 0.20342857142857143,
	"grad_norm": 0.2330997735261917,
	"kl": 0.017974853515625,
	"learning_rate": 3.142063423134644e-07,
	"loss": 0.0007,
	"reward": 1.2187500298023224,
	"reward_std": 0.5016858726739883,
	"rewards/accuracy_reward": 0.3125,
	"rewards/format_reward": 0.9062500298023224,
	"step": 178
	},
	{
	"completion_length": 1635.5833740234375,
	"entropy": 0.365234375,
	"epoch": 0.20457142857142857,
	"grad_norm": 0.29855063557624817,
	"kl": 0.01336669921875,
	"learning_rate": 3.0887794225945143e-07,
	"loss": 0.0005,
	"reward": 0.979166716337204,
	"reward_std": 0.4029111787676811,
	"rewards/accuracy_reward": 0.1666666716337204,
	"rewards/format_reward": 0.8125000298023224,
	"step": 179
	},
	{
	"completion_length": 1145.468765258789,
	"entropy": 0.3056640625,
	"epoch": 0.2057142857142857,
	"grad_norm": 0.238195538520813,
	"kl": 0.0108795166015625,
	"learning_rate": 3.0359654942835247e-07,
	"loss": 0.0004,
	"reward": 1.5104166865348816,
	"reward_std": 0.42421412095427513,
	"rewards/accuracy_reward": 0.5520833358168602,
	"rewards/format_reward": 0.9583333432674408,
	"step": 180
	},
	{
	"completion_length": 1850.947998046875,
	"entropy": 0.420166015625,
	"epoch": 0.20685714285714285,
	"grad_norm": 0.36524245142936707,
	"kl": 0.01495361328125,
	"learning_rate": 2.9836319343816397e-07,
	"loss": 0.0006,
	"reward": 0.9791666865348816,
	"reward_std": 0.3578517735004425,
	"rewards/accuracy_reward": 0.19791666697710752,
	"rewards/format_reward": 0.7812500298023224,
	"step": 181
	},
	{
	"completion_length": 1749.0938415527344,
	"entropy": 0.359375,
	"epoch": 0.208,
	"grad_norm": 0.1934923529624939,
	"kl": 0.0108184814453125,
	"learning_rate": 2.931788945420058e-07,
	"loss": 0.0004,
	"reward": 1.0000000298023224,
	"reward_std": 0.3973938375711441,
	"rewards/accuracy_reward": 0.2187500037252903,
	"rewards/format_reward": 0.7812500149011612,
	"step": 182
	},
	{
	"completion_length": 1332.4479675292969,
	"entropy": 0.322021484375,
	"epoch": 0.20914285714285713,
	"grad_norm": 0.23912180960178375,
	"kl": 0.0157623291015625,
	"learning_rate": 2.8804466342921987e-07,
	"loss": 0.0006,
	"reward": 1.2187500596046448,
	"reward_std": 0.35980356484651566,
	"rewards/accuracy_reward": 0.260416679084301,
	"rewards/format_reward": 0.958333358168602,
	"step": 183
	},
	{
	"completion_length": 1341.1354675292969,
	"entropy": 0.35693359375,
	"epoch": 0.2102857142857143,
	"grad_norm": 0.22043198347091675,
	"kl": 0.0140228271484375,
	"learning_rate": 2.829615010283344e-07,
	"loss": 0.0006,
	"reward": 1.0833333432674408,
	"reward_std": 0.2259194441139698,
	"rewards/accuracy_reward": 0.1666666716337204,
	"rewards/format_reward": 0.9166666865348816,
	"step": 184
	},
	{
	"completion_length": 1516.4583892822266,
	"entropy": 0.30029296875,
	"epoch": 0.21142857142857144,
	"grad_norm": 0.23556554317474365,
	"kl": 0.0121002197265625,
	"learning_rate": 2.7793039831193133e-07,
	"loss": 0.0005,
	"reward": 1.0104166716337204,
	"reward_std": 0.31887371838092804,
	"rewards/accuracy_reward": 0.1458333432674408,
	"rewards/format_reward": 0.864583358168602,
	"step": 185
	},
	{
	"completion_length": 1785.104232788086,
	"entropy": 0.446533203125,
	"epoch": 0.21257142857142858,
	"grad_norm": 0.38155755400657654,
	"kl": 0.01576995849609375,
	"learning_rate": 2.729523361034538e-07,
	"loss": 0.0006,
	"reward": 0.9583333879709244,
	"reward_std": 0.44071806967258453,
	"rewards/accuracy_reward": 0.18750000558793545,
	"rewards/format_reward": 0.7708333432674408,
	"step": 186
	},
	{
	"completion_length": 1534.7917175292969,
	"entropy": 0.41748046875,
	"epoch": 0.21371428571428572,
	"grad_norm": 0.37235942482948303,
	"kl": 0.0169219970703125,
	"learning_rate": 2.6802828488599294e-07,
	"loss": 0.0007,
	"reward": 1.0312500149011612,
	"reward_std": 0.35790160298347473,
	"rewards/accuracy_reward": 0.1458333395421505,
	"rewards/format_reward": 0.8854166865348816,
	"step": 187
	},
	{
	"completion_length": 1874.6354675292969,
	"entropy": 0.521484375,
	"epoch": 0.21485714285714286,
	"grad_norm": 0.5140780210494995,
	"kl": 0.0186004638671875,
	"learning_rate": 2.631592046130896e-07,
	"loss": 0.0007,
	"reward": 0.8125000298023224,
	"reward_std": 0.4419962018728256,
	"rewards/accuracy_reward": 0.08333333674818277,
	"rewards/format_reward": 0.7291666716337204,
	"step": 188
	},
	{
	"completion_length": 1185.3958587646484,
	"entropy": 0.338623046875,
	"epoch": 0.216,
	"grad_norm": 0.28023380041122437,
	"kl": 0.01312255859375,
	"learning_rate": 2.583460445215911e-07,
	"loss": 0.0005,
	"reward": 1.020833358168602,
	"reward_std": 0.301351435482502,
	"rewards/accuracy_reward": 0.11458333674818277,
	"rewards/format_reward": 0.9062500149011612,
	"step": 189
	},
	{
	"completion_length": 1186.5417175292969,
	"entropy": 0.27587890625,
	"epoch": 0.21714285714285714,
	"grad_norm": 0.17898434400558472,
	"kl": 0.01284027099609375,
	"learning_rate": 2.5358974294659373e-07,
	"loss": 0.0005,
	"reward": 1.1770833432674408,
	"reward_std": 0.2806706018745899,
	"rewards/accuracy_reward": 0.23958333395421505,
	"rewards/format_reward": 0.9375,
	"step": 190
	},
	{
	"completion_length": 1232.6458740234375,
	"entropy": 0.323486328125,
	"epoch": 0.21828571428571428,
	"grad_norm": 0.19368711113929749,
	"kl": 0.0129547119140625,
	"learning_rate": 2.488912271385139e-07,
	"loss": 0.0005,
	"reward": 1.3125000596046448,
	"reward_std": 0.3853513225913048,
	"rewards/accuracy_reward": 0.35416668467223644,
	"rewards/format_reward": 0.9583333432674408,
	"step": 191
	},
	{
	"completion_length": 1928.1459350585938,
	"entropy": 0.443603515625,
	"epoch": 0.21942857142857142,
	"grad_norm": 0.19557389616966248,
	"kl": 0.01648712158203125,
	"learning_rate": 2.4425141308231765e-07,
	"loss": 0.0007,
	"reward": 0.8854166865348816,
	"reward_std": 0.25648824870586395,
	"rewards/accuracy_reward": 0.1354166716337204,
	"rewards/format_reward": 0.7500000149011612,
	"step": 192
	},
	{
	"completion_length": 2170.5625,
	"entropy": 0.6103515625,
	"epoch": 0.22057142857142858,
	"grad_norm": 0.5704598426818848,
	"kl": 0.02215576171875,
	"learning_rate": 2.3967120531894857e-07,
	"loss": 0.0009,
	"reward": 0.8541667014360428,
	"reward_std": 0.5056344047188759,
	"rewards/accuracy_reward": 0.15625000186264515,
	"rewards/format_reward": 0.6979166865348816,
	"step": 193
	},
	{
	"completion_length": 2294.229248046875,
	"entropy": 0.56884765625,
	"epoch": 0.22171428571428572,
	"grad_norm": 0.2927386164665222,
	"kl": 0.02191162109375,
	"learning_rate": 2.3515149676898552e-07,
	"loss": 0.0009,
	"reward": 1.239583358168602,
	"reward_std": 0.6518271863460541,
	"rewards/accuracy_reward": 0.4375000149011612,
	"rewards/format_reward": 0.802083358168602,
	"step": 194
	},
	{
	"completion_length": 1263.7917175292969,
	"entropy": 0.239990234375,
	"epoch": 0.22285714285714286,
	"grad_norm": 0.16641545295715332,
	"kl": 0.0110015869140625,
	"learning_rate": 2.306931685585657e-07,
	"loss": 0.0004,
	"reward": 1.1875000596046448,
	"reward_std": 0.38468754291534424,
	"rewards/accuracy_reward": 0.23958334140479565,
	"rewards/format_reward": 0.9479166865348816,
	"step": 195
	},
	{
	"completion_length": 2122.697967529297,
	"entropy": 0.60400390625,
	"epoch": 0.224,
	"grad_norm": 0.25676071643829346,
	"kl": 0.023529052734375,
	"learning_rate": 2.2629708984760706e-07,
	"loss": 0.0009,
	"reward": 0.9791666865348816,
	"reward_std": 0.43499240279197693,
	"rewards/accuracy_reward": 0.229166679084301,
	"rewards/format_reward": 0.7500000149011612,
	"step": 196
	},
	{
	"completion_length": 1125.312515258789,
	"entropy": 0.328125,
	"epoch": 0.22514285714285714,
	"grad_norm": 0.19764328002929688,
	"kl": 0.011962890625,
	"learning_rate": 2.2196411766036487e-07,
	"loss": 0.0005,
	"reward": 1.3437500596046448,
	"reward_std": 0.39162378013134,
	"rewards/accuracy_reward": 0.3750000111758709,
	"rewards/format_reward": 0.96875,
	"step": 197
	},
	{
	"completion_length": 1463.8750305175781,
	"entropy": 0.341796875,
	"epoch": 0.22628571428571428,
	"grad_norm": 0.26102352142333984,
	"kl": 0.01641845703125,
	"learning_rate": 2.1769509671835223e-07,
	"loss": 0.0007,
	"reward": 1.1354167014360428,
	"reward_std": 0.33387480303645134,
	"rewards/accuracy_reward": 0.3229166716337204,
	"rewards/format_reward": 0.8125000149011612,
	"step": 198
	},
	{
	"completion_length": 1503.4792175292969,
	"entropy": 0.318115234375,
	"epoch": 0.22742857142857142,
	"grad_norm": 0.3636128902435303,
	"kl": 0.0154876708984375,
	"learning_rate": 2.134908592756607e-07,
	"loss": 0.0006,
	"reward": 0.9479167014360428,
	"reward_std": 0.40788237005472183,
	"rewards/accuracy_reward": 0.08333333395421505,
	"rewards/format_reward": 0.864583358168602,
	"step": 199
	},
	{
	"completion_length": 1183.2916717529297,
	"entropy": 0.2479248046875,
	"epoch": 0.22857142857142856,
	"grad_norm": 0.20531828701496124,
	"kl": 0.01239776611328125,
	"learning_rate": 2.0935222495670968e-07,
	"loss": 0.0005,
	"reward": 1.2291666865348816,
	"reward_std": 0.3643130548298359,
	"rewards/accuracy_reward": 0.2812500027939677,
	"rewards/format_reward": 0.9479166716337204,
	"step": 200
	},
	{
	"completion_length": 1661.4271240234375,
	"entropy": 0.385498046875,
	"epoch": 0.2297142857142857,
	"grad_norm": 0.3458462357521057,
	"kl": 0.020599365234375,
	"learning_rate": 2.0528000059645995e-07,
	"loss": 0.0008,
	"reward": 1.229166716337204,
	"reward_std": 0.3946245461702347,
	"rewards/accuracy_reward": 0.4583333507180214,
	"rewards/format_reward": 0.7708333432674408,
	"step": 201
	},
	{
	"completion_length": 1379.8541717529297,
	"entropy": 0.33154296875,
	"epoch": 0.23085714285714284,
	"grad_norm": 0.23957432806491852,
	"kl": 0.0141448974609375,
	"learning_rate": 2.0127498008311922e-07,
	"loss": 0.0006,
	"reward": 1.3229166865348816,
	"reward_std": 0.24646351113915443,
	"rewards/accuracy_reward": 0.46875000558793545,
	"rewards/format_reward": 0.8541666716337204,
	"step": 202
	},
	{
	"completion_length": 1426.6042175292969,
	"entropy": 0.337158203125,
	"epoch": 0.232,
	"grad_norm": 0.2487732470035553,
	"kl": 0.015777587890625,
	"learning_rate": 1.9733794420337213e-07,
	"loss": 0.0006,
	"reward": 1.1562500298023224,
	"reward_std": 0.26880528777837753,
	"rewards/accuracy_reward": 0.2916666669771075,
	"rewards/format_reward": 0.8645833432674408,
	"step": 203
	},
	{
	"completion_length": 1260.0312805175781,
	"entropy": 0.43408203125,
	"epoch": 0.23314285714285715,
	"grad_norm": 0.20831915736198425,
	"kl": 0.01959228515625,
	"learning_rate": 1.934696604901642e-07,
	"loss": 0.0008,
	"reward": 1.1875000298023224,
	"reward_std": 0.32854287326335907,
	"rewards/accuracy_reward": 0.2395833432674408,
	"rewards/format_reward": 0.9479166865348816,
	"step": 204
	},
	{
	"completion_length": 1440.3020935058594,
	"entropy": 0.331298828125,
	"epoch": 0.2342857142857143,
	"grad_norm": 0.22207972407341003,
	"kl": 0.013214111328125,
	"learning_rate": 1.8967088307307e-07,
	"loss": 0.0005,
	"reward": 1.3645833730697632,
	"reward_std": 0.46688663959503174,
	"rewards/accuracy_reward": 0.4687500149011612,
	"rewards/format_reward": 0.8958333432674408,
	"step": 205
	},
	{
	"completion_length": 1833.2084045410156,
	"entropy": 0.340576171875,
	"epoch": 0.23542857142857143,
	"grad_norm": 0.1765735149383545,
	"kl": 0.0128936767578125,
	"learning_rate": 1.8594235253127372e-07,
	"loss": 0.0005,
	"reward": 0.9375000298023224,
	"reward_std": 0.27143751084804535,
	"rewards/accuracy_reward": 0.08333333488553762,
	"rewards/format_reward": 0.8541666865348816,
	"step": 206
	},
	{
	"completion_length": 1413.0313110351562,
	"entropy": 0.407470703125,
	"epoch": 0.23657142857142857,
	"grad_norm": 0.21233247220516205,
	"kl": 0.017242431640625,
	"learning_rate": 1.822847957491922e-07,
	"loss": 0.0007,
	"reward": 1.0833333730697632,
	"reward_std": 0.3562712073326111,
	"rewards/accuracy_reward": 0.15625000651925802,
	"rewards/format_reward": 0.927083358168602,
	"step": 207
	},
	{
	"completion_length": 1336.4062805175781,
	"entropy": 0.294189453125,
	"epoch": 0.2377142857142857,
	"grad_norm": 0.2305799126625061,
	"kl": 0.012664794921875,
	"learning_rate": 1.7869892577476722e-07,
	"loss": 0.0005,
	"reward": 1.1875000149011612,
	"reward_std": 0.2691424489021301,
	"rewards/accuracy_reward": 0.2812500102445483,
	"rewards/format_reward": 0.9062500149011612,
	"step": 208
	},
	{
	"completion_length": 1310.2812957763672,
	"entropy": 0.389404296875,
	"epoch": 0.23885714285714285,
	"grad_norm": 0.24238798022270203,
	"kl": 0.01934814453125,
	"learning_rate": 1.7518544168045524e-07,
	"loss": 0.0008,
	"reward": 1.2395833730697632,
	"reward_std": 0.36760086938738823,
	"rewards/accuracy_reward": 0.3229166753590107,
	"rewards/format_reward": 0.9166666716337204,
	"step": 209
	},
	{
	"completion_length": 1589.3750610351562,
	"entropy": 0.323486328125,
	"epoch": 0.24,
	"grad_norm": 0.32202091813087463,
	"kl": 0.01515960693359375,
	"learning_rate": 1.7174502842694212e-07,
	"loss": 0.0006,
	"reward": 1.0833333730697632,
	"reward_std": 0.32458770275115967,
	"rewards/accuracy_reward": 0.20833333395421505,
	"rewards/format_reward": 0.8750000149011612,
	"step": 210
	},
	{
	"completion_length": 1605.1041717529297,
	"entropy": 0.4423828125,
	"epoch": 0.24114285714285713,
	"grad_norm": 0.37479087710380554,
	"kl": 0.020111083984375,
	"learning_rate": 1.6837835672960831e-07,
	"loss": 0.0008,
	"reward": 1.0937500298023224,
	"reward_std": 0.35892703384160995,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.802083358168602,
	"step": 211
	},
	{
	"completion_length": 1098.7396240234375,
	"entropy": 0.296630859375,
	"epoch": 0.2422857142857143,
	"grad_norm": 0.41751039028167725,
	"kl": 0.0150604248046875,
	"learning_rate": 1.6508608292777203e-07,
	"loss": 0.0006,
	"reward": 1.1875000596046448,
	"reward_std": 0.309124119579792,
	"rewards/accuracy_reward": 0.2604166716337204,
	"rewards/format_reward": 0.927083358168602,
	"step": 212
	},
	{
	"completion_length": 1308.5520935058594,
	"entropy": 0.43505859375,
	"epoch": 0.24342857142857144,
	"grad_norm": 0.46686094999313354,
	"kl": 0.023101806640625,
	"learning_rate": 1.6186884885673413e-07,
	"loss": 0.0009,
	"reward": 1.1666666865348816,
	"reward_std": 0.4640028476715088,
	"rewards/accuracy_reward": 0.28125000558793545,
	"rewards/format_reward": 0.8854167014360428,
	"step": 213
	},
	{
	"completion_length": 1767.1875305175781,
	"entropy": 0.484619140625,
	"epoch": 0.24457142857142858,
	"grad_norm": 0.334074467420578,
	"kl": 0.02288818359375,
	"learning_rate": 1.5872728172265146e-07,
	"loss": 0.0009,
	"reward": 1.1354166865348816,
	"reward_std": 0.4487803429365158,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.8437500149011612,
	"step": 214
	},
	{
	"completion_length": 1314.2396545410156,
	"entropy": 0.354248046875,
	"epoch": 0.24571428571428572,
	"grad_norm": 0.10470432788133621,
	"kl": 0.012969970703125,
	"learning_rate": 1.5566199398026147e-07,
	"loss": 0.0005,
	"reward": 0.9791666865348816,
	"reward_std": 0.11020193248987198,
	"rewards/accuracy_reward": 0.0833333358168602,
	"rewards/format_reward": 0.8958333432674408,
	"step": 215
	},
	{
	"completion_length": 1227.4166870117188,
	"entropy": 0.43896484375,
	"epoch": 0.24685714285714286,
	"grad_norm": 0.5151819586753845,
	"kl": 0.020538330078125,
	"learning_rate": 1.5267358321348285e-07,
	"loss": 0.0008,
	"reward": 1.1979166865348816,
	"reward_std": 0.38816463202238083,
	"rewards/accuracy_reward": 0.3125000149011612,
	"rewards/format_reward": 0.8854166716337204,
	"step": 216
	},
	{
	"completion_length": 1324.9792175292969,
	"entropy": 0.314697265625,
	"epoch": 0.248,
	"grad_norm": 0.23024234175682068,
	"kl": 0.0144195556640625,
	"learning_rate": 1.4976263201891613e-07,
	"loss": 0.0006,
	"reward": 1.3125000298023224,
	"reward_std": 0.44106680899858475,
	"rewards/accuracy_reward": 0.4062500149011612,
	"rewards/format_reward": 0.9062500149011612,
	"step": 217
	},
	{
	"completion_length": 1387.0312957763672,
	"entropy": 0.253662109375,
	"epoch": 0.24914285714285714,
	"grad_norm": 0.3250998258590698,
	"kl": 0.01210784912109375,
	"learning_rate": 1.469297078922642e-07,
	"loss": 0.0005,
	"reward": 1.010416716337204,
	"reward_std": 0.378255732357502,
	"rewards/accuracy_reward": 0.0833333358168602,
	"rewards/format_reward": 0.9270833432674408,
	"step": 218
	},
	{
	"completion_length": 1540.6771087646484,
	"entropy": 0.5185546875,
	"epoch": 0.2502857142857143,
	"grad_norm": 0.24495770037174225,
	"kl": 0.0228729248046875,
	"learning_rate": 1.4417536311769885e-07,
	"loss": 0.0009,
	"reward": 1.1458334028720856,
	"reward_std": 0.47743887454271317,
	"rewards/accuracy_reward": 0.2916666716337204,
	"rewards/format_reward": 0.8541667014360428,
	"step": 219
	},
	{
	"completion_length": 1439.0938262939453,
	"entropy": 0.388427734375,
	"epoch": 0.25142857142857145,
	"grad_norm": 0.22012194991111755,
	"kl": 0.01434326171875,
	"learning_rate": 1.4150013466019114e-07,
	"loss": 0.0006,
	"reward": 0.8854166865348816,
	"reward_std": 0.17735834047198296,
	"rewards/accuracy_reward": 0.010416666977107525,
	"rewards/format_reward": 0.8750000149011612,
	"step": 220
	},
	{
	"completion_length": 1156.2604370117188,
	"entropy": 0.25439453125,
	"epoch": 0.25257142857142856,
	"grad_norm": 0.2978960871696472,
	"kl": 0.0113677978515625,
	"learning_rate": 1.3890454406082956e-07,
	"loss": 0.0005,
	"reward": 1.322916716337204,
	"reward_std": 0.3704235702753067,
	"rewards/accuracy_reward": 0.3645833469927311,
	"rewards/format_reward": 0.9583333432674408,
	"step": 221
	},
	{
	"completion_length": 1340.5104522705078,
	"entropy": 0.3916015625,
	"epoch": 0.2537142857142857,
	"grad_norm": 0.3874484896659851,
	"kl": 0.019073486328125,
	"learning_rate": 1.3638909733514452e-07,
	"loss": 0.0008,
	"reward": 1.2187500298023224,
	"reward_std": 0.33246491849422455,
	"rewards/accuracy_reward": 0.3020833358168602,
	"rewards/format_reward": 0.9166666865348816,
	"step": 222
	},
	{
	"completion_length": 1576.0208740234375,
	"entropy": 0.390625,
	"epoch": 0.25485714285714284,
	"grad_norm": 0.3034595847129822,
	"kl": 0.019012451171875,
	"learning_rate": 1.3395428487445914e-07,
	"loss": 0.0008,
	"reward": 1.0520833730697632,
	"reward_std": 0.32211463153362274,
	"rewards/accuracy_reward": 0.22916667722165585,
	"rewards/format_reward": 0.8229166716337204,
	"step": 223
	},
	{
	"completion_length": 2019.4895935058594,
	"entropy": 0.421875,
	"epoch": 0.256,
	"grad_norm": 0.19334331154823303,
	"kl": 0.0189056396484375,
	"learning_rate": 1.316005813502869e-07,
	"loss": 0.0008,
	"reward": 1.0208333432674408,
	"reward_std": 0.50140430778265,
	"rewards/accuracy_reward": 0.2187500111758709,
	"rewards/format_reward": 0.802083358168602,
	"step": 224
	},
	{
	"completion_length": 1698.7708435058594,
	"entropy": 0.53515625,
	"epoch": 0.2571428571428571,
	"grad_norm": 0.3179035782814026,
	"kl": 0.028045654296875,
	"learning_rate": 1.2932844562179352e-07,
	"loss": 0.0011,
	"reward": 1.0729166865348816,
	"reward_std": 0.4662906527519226,
	"rewards/accuracy_reward": 0.2083333358168602,
	"rewards/format_reward": 0.864583358168602,
	"step": 225
	},
	{
	"completion_length": 1244.3125610351562,
	"entropy": 0.2498779296875,
	"epoch": 0.2582857142857143,
	"grad_norm": 0.14828985929489136,
	"kl": 0.01190948486328125,
	"learning_rate": 1.2713832064634125e-07,
	"loss": 0.0005,
	"reward": 1.3333334028720856,
	"reward_std": 0.3380242735147476,
	"rewards/accuracy_reward": 0.3541666818782687,
	"rewards/format_reward": 0.9791666716337204,
	"step": 226
	},
	{
	"completion_length": 1184.6458587646484,
	"entropy": 0.3994140625,
	"epoch": 0.25942857142857145,
	"grad_norm": 0.25174474716186523,
	"kl": 0.021026611328125,
	"learning_rate": 1.2503063339313356e-07,
	"loss": 0.0008,
	"reward": 1.1458333730697632,
	"reward_std": 0.35975906252861023,
	"rewards/accuracy_reward": 0.17708334140479565,
	"rewards/format_reward": 0.9687500149011612,
	"step": 227
	},
	{
	"completion_length": 1297.875015258789,
	"entropy": 0.412353515625,
	"epoch": 0.26057142857142856,
	"grad_norm": 0.3392723500728607,
	"kl": 0.0189666748046875,
	"learning_rate": 1.2300579475997657e-07,
	"loss": 0.0008,
	"reward": 1.1250000149011612,
	"reward_std": 0.381549421697855,
	"rewards/accuracy_reward": 0.2812500074505806,
	"rewards/format_reward": 0.8437500149011612,
	"step": 228
	},
	{
	"completion_length": 1462.6667175292969,
	"entropy": 0.46826171875,
	"epoch": 0.26171428571428573,
	"grad_norm": 0.6046648621559143,
	"kl": 0.020416259765625,
	"learning_rate": 1.2106419949317388e-07,
	"loss": 0.0008,
	"reward": 0.927083358168602,
	"reward_std": 0.30044983327388763,
	"rewards/accuracy_reward": 0.0416666679084301,
	"rewards/format_reward": 0.8854166716337204,
	"step": 229
	},
	{
	"completion_length": 2096.229248046875,
	"entropy": 0.4873046875,
	"epoch": 0.26285714285714284,
	"grad_norm": 0.6036101579666138,
	"kl": 0.0241851806640625,
	"learning_rate": 1.1920622611056974e-07,
	"loss": 0.001,
	"reward": 0.7812500149011612,
	"reward_std": 0.3880816847085953,
	"rewards/accuracy_reward": 0.0520833358168602,
	"rewards/format_reward": 0.7291666865348816,
	"step": 230
	},
	{
	"completion_length": 1415.8437805175781,
	"entropy": 0.298095703125,
	"epoch": 0.264,
	"grad_norm": 0.29470252990722656,
	"kl": 0.01641845703125,
	"learning_rate": 1.1743223682775649e-07,
	"loss": 0.0007,
	"reward": 1.072916716337204,
	"reward_std": 0.36706580221652985,
	"rewards/accuracy_reward": 0.2812500037252903,
	"rewards/format_reward": 0.7916666865348816,
	"step": 231
	},
	{
	"completion_length": 1634.7708740234375,
	"entropy": 0.44384765625,
	"epoch": 0.2651428571428571,
	"grad_norm": 0.38455915451049805,
	"kl": 0.02178955078125,
	"learning_rate": 1.1574257748745986e-07,
	"loss": 0.0009,
	"reward": 0.947916716337204,
	"reward_std": 0.2808724343776703,
	"rewards/accuracy_reward": 0.0416666679084301,
	"rewards/format_reward": 0.9062500149011612,
	"step": 232
	},
	{
	"completion_length": 1405.8541870117188,
	"entropy": 0.42626953125,
	"epoch": 0.2662857142857143,
	"grad_norm": 0.40585455298423767,
	"kl": 0.0194244384765625,
	"learning_rate": 1.1413757749211602e-07,
	"loss": 0.0008,
	"reward": 0.979166716337204,
	"reward_std": 0.3568150997161865,
	"rewards/accuracy_reward": 0.0937500037252903,
	"rewards/format_reward": 0.8854166716337204,
	"step": 233
	},
	{
	"completion_length": 1810.0937957763672,
	"entropy": 0.4306640625,
	"epoch": 0.2674285714285714,
	"grad_norm": 0.26030558347702026,
	"kl": 0.02484130859375,
	"learning_rate": 1.1261754973965422e-07,
	"loss": 0.001,
	"reward": 0.947916679084301,
	"reward_std": 0.30990852415561676,
	"rewards/accuracy_reward": 0.22916667256504297,
	"rewards/format_reward": 0.7187500149011612,
	"step": 234
	},
	{
	"completion_length": 1116.4167175292969,
	"entropy": 0.325439453125,
	"epoch": 0.26857142857142857,
	"grad_norm": 0.35170045495033264,
	"kl": 0.0147705078125,
	"learning_rate": 1.1118279056249653e-07,
	"loss": 0.0006,
	"reward": 1.4062500596046448,
	"reward_std": 0.36736297607421875,
	"rewards/accuracy_reward": 0.4687500223517418,
	"rewards/format_reward": 0.9375000149011612,
	"step": 235
	},
	{
	"completion_length": 1921.791748046875,
	"entropy": 0.501220703125,
	"epoch": 0.26971428571428574,
	"grad_norm": 0.23206467926502228,
	"kl": 0.0231475830078125,
	"learning_rate": 1.0983357966978745e-07,
	"loss": 0.0009,
	"reward": 1.0520833730697632,
	"reward_std": 0.5711337029933929,
	"rewards/accuracy_reward": 0.2291666753590107,
	"rewards/format_reward": 0.8229166716337204,
	"step": 236
	},
	{
	"completion_length": 1386.6146240234375,
	"entropy": 0.397705078125,
	"epoch": 0.27085714285714285,
	"grad_norm": 0.191674143075943,
	"kl": 0.0179901123046875,
	"learning_rate": 1.0857018009286381e-07,
	"loss": 0.0007,
	"reward": 1.1354166865348816,
	"reward_std": 0.26486562192440033,
	"rewards/accuracy_reward": 0.27083333395421505,
	"rewards/format_reward": 0.8645833432674408,
	"step": 237
	},
	{
	"completion_length": 1185.1875305175781,
	"entropy": 0.23828125,
	"epoch": 0.272,
	"grad_norm": 0.22915461659431458,
	"kl": 0.0135345458984375,
	"learning_rate": 1.0739283813397639e-07,
	"loss": 0.0005,
	"reward": 1.1041667014360428,
	"reward_std": 0.3254629634320736,
	"rewards/accuracy_reward": 0.3020833507180214,
	"rewards/format_reward": 0.8020833432674408,
	"step": 238
	},
	{
	"completion_length": 1499.385498046875,
	"entropy": 0.3544921875,
	"epoch": 0.27314285714285713,
	"grad_norm": 0.2647407352924347,
	"kl": 0.01690673828125,
	"learning_rate": 1.063017833182728e-07,
	"loss": 0.0007,
	"reward": 1.2812500298023224,
	"reward_std": 0.2977961152791977,
	"rewards/accuracy_reward": 0.4583333432674408,
	"rewards/format_reward": 0.8229166716337204,
	"step": 239
	},
	{
	"completion_length": 1829.4167175292969,
	"entropy": 0.8447265625,
	"epoch": 0.2742857142857143,
	"grad_norm": 0.652540385723114,
	"kl": 0.0433349609375,
	"learning_rate": 1.0529722834905125e-07,
	"loss": 0.0017,
	"reward": 0.7916666865348816,
	"reward_std": 0.4159542843699455,
	"rewards/accuracy_reward": 0.06250000186264515,
	"rewards/format_reward": 0.7291666716337204,
	"step": 240
	},
	{
	"completion_length": 1511.604248046875,
	"entropy": 0.53955078125,
	"epoch": 0.2754285714285714,
	"grad_norm": 0.4173026978969574,
	"kl": 0.02716064453125,
	"learning_rate": 1.0437936906629334e-07,
	"loss": 0.0011,
	"reward": 0.9062500447034836,
	"reward_std": 0.31576745957136154,
	"rewards/accuracy_reward": 0.06250000093132257,
	"rewards/format_reward": 0.8437500149011612,
	"step": 241
	},
	{
	"completion_length": 1336.7396087646484,
	"entropy": 0.57373046875,
	"epoch": 0.2765714285714286,
	"grad_norm": 0.49007970094680786,
	"kl": 0.03204345703125,
	"learning_rate": 1.0354838440848501e-07,
	"loss": 0.0013,
	"reward": 1.020833358168602,
	"reward_std": 0.23006567358970642,
	"rewards/accuracy_reward": 0.13541666697710752,
	"rewards/format_reward": 0.8854166865348816,
	"step": 242
	},
	{
	"completion_length": 1687.6875610351562,
	"entropy": 0.470703125,
	"epoch": 0.2777142857142857,
	"grad_norm": 0.37550440430641174,
	"kl": 0.024993896484375,
	"learning_rate": 1.0280443637773163e-07,
	"loss": 0.001,
	"reward": 1.0000000447034836,
	"reward_std": 0.3257058337330818,
	"rewards/accuracy_reward": 0.14583334140479565,
	"rewards/format_reward": 0.8541666865348816,
	"step": 243
	},
	{
	"completion_length": 1568.4166870117188,
	"entropy": 0.3994140625,
	"epoch": 0.27885714285714286,
	"grad_norm": 1.2306023836135864,
	"kl": 0.02081298828125,
	"learning_rate": 1.0214767000817596e-07,
	"loss": 0.0008,
	"reward": 1.2708333432674408,
	"reward_std": 0.46156562119722366,
	"rewards/accuracy_reward": 0.3750000074505806,
	"rewards/format_reward": 0.8958333432674408,
	"step": 244
	},
	{
	"completion_length": 1866.0729675292969,
	"entropy": 0.51953125,
	"epoch": 0.28,
	"grad_norm": 0.6619442105293274,
	"kl": 0.024658203125,
	"learning_rate": 1.0157821333772304e-07,
	"loss": 0.001,
	"reward": 1.135416716337204,
	"reward_std": 0.6320051997900009,
	"rewards/accuracy_reward": 0.3020833469927311,
	"rewards/format_reward": 0.8333333432674408,
	"step": 245
	},
	{
	"completion_length": 1490.1250305175781,
	"entropy": 0.380859375,
	"epoch": 0.28114285714285714,
	"grad_norm": 0.2870371639728546,
	"kl": 0.0225677490234375,
	"learning_rate": 1.0109617738307911e-07,
	"loss": 0.0009,
	"reward": 1.0625000149011612,
	"reward_std": 0.3832716643810272,
	"rewards/accuracy_reward": 0.16666667349636555,
	"rewards/format_reward": 0.895833358168602,
	"step": 246
	},
	{
	"completion_length": 2113.1563110351562,
	"entropy": 0.701904296875,
	"epoch": 0.2822857142857143,
	"grad_norm": 0.5894800424575806,
	"kl": 0.0378875732421875,
	"learning_rate": 1.0070165611810855e-07,
	"loss": 0.0015,
	"reward": 0.7708333358168602,
	"reward_std": 0.5113655403256416,
	"rewards/accuracy_reward": 0.09375,
	"rewards/format_reward": 0.6770833358168602,
	"step": 247
	},
	{
	"completion_length": 1501.5000610351562,
	"entropy": 0.60888671875,
	"epoch": 0.2834285714285714,
	"grad_norm": 0.5986164212226868,
	"kl": 0.0314483642578125,
	"learning_rate": 1.0039472645551372e-07,
	"loss": 0.0013,
	"reward": 1.1979166865348816,
	"reward_std": 0.40703435614705086,
	"rewards/accuracy_reward": 0.38541667722165585,
	"rewards/format_reward": 0.8125000149011612,
	"step": 248
	},
	{
	"completion_length": 1404.7396240234375,
	"entropy": 0.4013671875,
	"epoch": 0.2845714285714286,
	"grad_norm": 0.29348820447921753,
	"kl": 0.0249481201171875,
	"learning_rate": 1.0017544823184055e-07,
	"loss": 0.001,
	"reward": 1.2812500298023224,
	"reward_std": 0.34860314428806305,
	"rewards/accuracy_reward": 0.4479166716337204,
	"rewards/format_reward": 0.8333333432674408,
	"step": 249
	},
	{
	"completion_length": 1369.3021240234375,
	"entropy": 0.5029296875,
	"epoch": 0.2857142857142857,
	"grad_norm": 0.801852822303772,
	"kl": 0.029754638671875,
	"learning_rate": 1.000438641958131e-07,
	"loss": 0.0012,
	"reward": 1.0937500298023224,
	"reward_std": 0.4080042615532875,
	"rewards/accuracy_reward": 0.1875000074505806,
	"rewards/format_reward": 0.9062500149011612,
	"step": 250
	},
	{
	"epoch": 0.2857142857142857,
	"step": 250,
	"total_flos": 0.0,
	"train_loss": 0.00036543175232403515,
	"train_runtime": 19061.8828,
	"train_samples_per_second": 1.259,
	"train_steps_per_second": 0.013
	}
	],
	"logging_steps": 1,
	"max_steps": 250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}