product_des / trainer_state.json

Upload folder using huggingface_hub

2fcd150 verified 16 days ago

31.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 108,
	"global_step": 540,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.7017320156097413,
	"epoch": 0.009267840593141797,
	"grad_norm": 0.4929618835449219,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.8663,
	"mean_token_accuracy": 0.6088488936424256,
	"num_tokens": 10169.0,
	"step": 5
	},
	{
	"entropy": 1.6203628540039063,
	"epoch": 0.018535681186283594,
	"grad_norm": 0.5699822306632996,
	"learning_rate": 1.8e-05,
	"loss": 1.8139,
	"mean_token_accuracy": 0.613596773147583,
	"num_tokens": 17492.0,
	"step": 10
	},
	{
	"entropy": 1.6117817282676696,
	"epoch": 0.027803521779425393,
	"grad_norm": 0.5831968784332275,
	"learning_rate": 1.9849056603773588e-05,
	"loss": 1.9287,
	"mean_token_accuracy": 0.6028814196586609,
	"num_tokens": 23104.0,
	"step": 15
	},
	{
	"entropy": 1.5564811944961547,
	"epoch": 0.03707136237256719,
	"grad_norm": 0.6044633388519287,
	"learning_rate": 1.9660377358490567e-05,
	"loss": 1.8979,
	"mean_token_accuracy": 0.6022705733776093,
	"num_tokens": 28237.0,
	"step": 20
	},
	{
	"entropy": 1.5479681015014648,
	"epoch": 0.04633920296570899,
	"grad_norm": 0.5943928956985474,
	"learning_rate": 1.947169811320755e-05,
	"loss": 1.8733,
	"mean_token_accuracy": 0.6153187394142151,
	"num_tokens": 33029.0,
	"step": 25
	},
	{
	"entropy": 1.646817970275879,
	"epoch": 0.05560704355885079,
	"grad_norm": 0.6993905901908875,
	"learning_rate": 1.928301886792453e-05,
	"loss": 1.8784,
	"mean_token_accuracy": 0.6003017485141754,
	"num_tokens": 37369.0,
	"step": 30
	},
	{
	"entropy": 1.650176739692688,
	"epoch": 0.06487488415199258,
	"grad_norm": 0.786679744720459,
	"learning_rate": 1.909433962264151e-05,
	"loss": 1.8796,
	"mean_token_accuracy": 0.6147689402103425,
	"num_tokens": 41484.0,
	"step": 35
	},
	{
	"entropy": 1.590287184715271,
	"epoch": 0.07414272474513438,
	"grad_norm": 0.770859956741333,
	"learning_rate": 1.8905660377358492e-05,
	"loss": 1.817,
	"mean_token_accuracy": 0.6139472305774689,
	"num_tokens": 45350.0,
	"step": 40
	},
	{
	"entropy": 1.8836397886276246,
	"epoch": 0.08341056533827618,
	"grad_norm": 1.3446482419967651,
	"learning_rate": 1.8716981132075474e-05,
	"loss": 2.2667,
	"mean_token_accuracy": 0.5831025898456573,
	"num_tokens": 47900.0,
	"step": 45
	},
	{
	"entropy": 1.914563238620758,
	"epoch": 0.09267840593141798,
	"grad_norm": 2.0144922733306885,
	"learning_rate": 1.8528301886792453e-05,
	"loss": 2.3988,
	"mean_token_accuracy": 0.5866762459278106,
	"num_tokens": 49421.0,
	"step": 50
	},
	{
	"entropy": 1.753426432609558,
	"epoch": 0.10194624652455977,
	"grad_norm": 0.36396369338035583,
	"learning_rate": 1.8339622641509435e-05,
	"loss": 1.6739,
	"mean_token_accuracy": 0.634347426891327,
	"num_tokens": 59290.0,
	"step": 55
	},
	{
	"entropy": 1.7417057394981383,
	"epoch": 0.11121408711770157,
	"grad_norm": 0.557318389415741,
	"learning_rate": 1.8150943396226417e-05,
	"loss": 1.643,
	"mean_token_accuracy": 0.6404906511306763,
	"num_tokens": 66072.0,
	"step": 60
	},
	{
	"entropy": 1.6922197580337524,
	"epoch": 0.12048192771084337,
	"grad_norm": 0.5784375667572021,
	"learning_rate": 1.79622641509434e-05,
	"loss": 1.546,
	"mean_token_accuracy": 0.6431969463825226,
	"num_tokens": 71590.0,
	"step": 65
	},
	{
	"entropy": 1.7081309676170349,
	"epoch": 0.12974976830398516,
	"grad_norm": 0.6285673379898071,
	"learning_rate": 1.777358490566038e-05,
	"loss": 1.5738,
	"mean_token_accuracy": 0.6408641755580902,
	"num_tokens": 76620.0,
	"step": 70
	},
	{
	"entropy": 1.706821823120117,
	"epoch": 0.13901760889712697,
	"grad_norm": 0.6793721914291382,
	"learning_rate": 1.758490566037736e-05,
	"loss": 1.5597,
	"mean_token_accuracy": 0.6496909260749817,
	"num_tokens": 81367.0,
	"step": 75
	},
	{
	"entropy": 1.729298961162567,
	"epoch": 0.14828544949026876,
	"grad_norm": 0.7073204517364502,
	"learning_rate": 1.7396226415094343e-05,
	"loss": 1.5936,
	"mean_token_accuracy": 0.646106606721878,
	"num_tokens": 85829.0,
	"step": 80
	},
	{
	"entropy": 1.764689528942108,
	"epoch": 0.15755329008341057,
	"grad_norm": 0.8073896765708923,
	"learning_rate": 1.720754716981132e-05,
	"loss": 1.5737,
	"mean_token_accuracy": 0.6494780361652375,
	"num_tokens": 89983.0,
	"step": 85
	},
	{
	"entropy": 1.6753356814384461,
	"epoch": 0.16682113067655235,
	"grad_norm": 0.7738911509513855,
	"learning_rate": 1.7018867924528304e-05,
	"loss": 1.4815,
	"mean_token_accuracy": 0.6729483246803284,
	"num_tokens": 93855.0,
	"step": 90
	},
	{
	"entropy": 1.9390615344047546,
	"epoch": 0.17608897126969417,
	"grad_norm": 1.312859058380127,
	"learning_rate": 1.6830188679245286e-05,
	"loss": 1.8817,
	"mean_token_accuracy": 0.6210294425487518,
	"num_tokens": 96341.0,
	"step": 95
	},
	{
	"entropy": 1.9929674506187438,
	"epoch": 0.18535681186283595,
	"grad_norm": 1.6688119173049927,
	"learning_rate": 1.6641509433962265e-05,
	"loss": 1.9392,
	"mean_token_accuracy": 0.6368482947349549,
	"num_tokens": 97810.0,
	"step": 100
	},
	{
	"entropy": 1.712046504020691,
	"epoch": 0.19462465245597776,
	"grad_norm": 0.4342072010040283,
	"learning_rate": 1.6452830188679247e-05,
	"loss": 1.5909,
	"mean_token_accuracy": 0.6414119660854339,
	"num_tokens": 107589.0,
	"step": 105
	},
	{
	"entropy": 1.7470085620880127,
	"epoch": 0.20389249304911955,
	"grad_norm": 0.5741161704063416,
	"learning_rate": 1.626415094339623e-05,
	"loss": 1.5711,
	"mean_token_accuracy": 0.6456838071346283,
	"num_tokens": 114565.0,
	"step": 110
	},
	{
	"entropy": 1.5347474694252015,
	"epoch": 0.21316033364226136,
	"grad_norm": 0.6536217927932739,
	"learning_rate": 1.607547169811321e-05,
	"loss": 1.3867,
	"mean_token_accuracy": 0.6677907109260559,
	"num_tokens": 120099.0,
	"step": 115
	},
	{
	"entropy": 1.5956430912017823,
	"epoch": 0.22242817423540315,
	"grad_norm": 0.6675344705581665,
	"learning_rate": 1.588679245283019e-05,
	"loss": 1.4253,
	"mean_token_accuracy": 0.6632845401763916,
	"num_tokens": 125112.0,
	"step": 120
	},
	{
	"entropy": 1.5792277336120606,
	"epoch": 0.23169601482854496,
	"grad_norm": 0.7069701552391052,
	"learning_rate": 1.5698113207547172e-05,
	"loss": 1.3823,
	"mean_token_accuracy": 0.6681795418262482,
	"num_tokens": 129723.0,
	"step": 125
	},
	{
	"entropy": 1.5756880044937134,
	"epoch": 0.24096385542168675,
	"grad_norm": 0.7337709069252014,
	"learning_rate": 1.5509433962264154e-05,
	"loss": 1.3491,
	"mean_token_accuracy": 0.6784022688865662,
	"num_tokens": 134105.0,
	"step": 130
	},
	{
	"entropy": 1.6404427766799927,
	"epoch": 0.25023169601482853,
	"grad_norm": 0.7882033586502075,
	"learning_rate": 1.5320754716981133e-05,
	"loss": 1.4448,
	"mean_token_accuracy": 0.6615463674068451,
	"num_tokens": 138249.0,
	"step": 135
	},
	{
	"entropy": 1.5251396298408508,
	"epoch": 0.2594995366079703,
	"grad_norm": 0.9358009099960327,
	"learning_rate": 1.5132075471698115e-05,
	"loss": 1.3161,
	"mean_token_accuracy": 0.6832186877727509,
	"num_tokens": 141935.0,
	"step": 140
	},
	{
	"entropy": 1.6210530638694762,
	"epoch": 0.26876737720111216,
	"grad_norm": 1.2580927610397339,
	"learning_rate": 1.4943396226415094e-05,
	"loss": 1.5166,
	"mean_token_accuracy": 0.6789897084236145,
	"num_tokens": 144364.0,
	"step": 145
	},
	{
	"entropy": 1.5357141017913818,
	"epoch": 0.27803521779425394,
	"grad_norm": 1.4969000816345215,
	"learning_rate": 1.4754716981132076e-05,
	"loss": 1.5769,
	"mean_token_accuracy": 0.7000365734100342,
	"num_tokens": 145928.0,
	"step": 150
	},
	{
	"entropy": 1.4059158325195313,
	"epoch": 0.2873030583873957,
	"grad_norm": 0.5834245681762695,
	"learning_rate": 1.4566037735849057e-05,
	"loss": 1.3117,
	"mean_token_accuracy": 0.6917888641357421,
	"num_tokens": 156168.0,
	"step": 155
	},
	{
	"entropy": 1.4503844499588012,
	"epoch": 0.2965708989805375,
	"grad_norm": 0.5249871611595154,
	"learning_rate": 1.4377358490566037e-05,
	"loss": 1.3086,
	"mean_token_accuracy": 0.692787104845047,
	"num_tokens": 165610.0,
	"step": 160
	},
	{
	"entropy": 1.5506718158721924,
	"epoch": 0.30583873957367935,
	"grad_norm": 0.6383576393127441,
	"learning_rate": 1.418867924528302e-05,
	"loss": 1.3519,
	"mean_token_accuracy": 0.6676154375076294,
	"num_tokens": 171787.0,
	"step": 165
	},
	{
	"entropy": 1.5482367396354675,
	"epoch": 0.31510658016682114,
	"grad_norm": 0.8127756714820862,
	"learning_rate": 1.4e-05,
	"loss": 1.3004,
	"mean_token_accuracy": 0.6841661810874939,
	"num_tokens": 177223.0,
	"step": 170
	},
	{
	"entropy": 1.5198933720588683,
	"epoch": 0.3243744207599629,
	"grad_norm": 0.7491681575775146,
	"learning_rate": 1.3811320754716982e-05,
	"loss": 1.3046,
	"mean_token_accuracy": 0.684827846288681,
	"num_tokens": 182283.0,
	"step": 175
	},
	{
	"entropy": 1.4806129813194275,
	"epoch": 0.3336422613531047,
	"grad_norm": 0.7199849486351013,
	"learning_rate": 1.3622641509433962e-05,
	"loss": 1.3289,
	"mean_token_accuracy": 0.6813067197799683,
	"num_tokens": 187001.0,
	"step": 180
	},
	{
	"entropy": 1.4494765639305114,
	"epoch": 0.34291010194624655,
	"grad_norm": 0.842717707157135,
	"learning_rate": 1.3433962264150943e-05,
	"loss": 1.2323,
	"mean_token_accuracy": 0.7035281479358673,
	"num_tokens": 191394.0,
	"step": 185
	},
	{
	"entropy": 1.4810110807418824,
	"epoch": 0.35217794253938833,
	"grad_norm": 0.9301387667655945,
	"learning_rate": 1.3245283018867925e-05,
	"loss": 1.2773,
	"mean_token_accuracy": 0.6910167336463928,
	"num_tokens": 195399.0,
	"step": 190
	},
	{
	"entropy": 1.5017635345458984,
	"epoch": 0.3614457831325301,
	"grad_norm": 0.923757791519165,
	"learning_rate": 1.3056603773584906e-05,
	"loss": 1.3787,
	"mean_token_accuracy": 0.6846955835819244,
	"num_tokens": 198934.0,
	"step": 195
	},
	{
	"entropy": 1.6470162987709045,
	"epoch": 0.3707136237256719,
	"grad_norm": 1.4323452711105347,
	"learning_rate": 1.2867924528301888e-05,
	"loss": 1.6467,
	"mean_token_accuracy": 0.6908825635910034,
	"num_tokens": 200588.0,
	"step": 200
	},
	{
	"entropy": 1.6742107629776002,
	"epoch": 0.3799814643188137,
	"grad_norm": 0.6032175421714783,
	"learning_rate": 1.2679245283018868e-05,
	"loss": 1.5514,
	"mean_token_accuracy": 0.647225683927536,
	"num_tokens": 210039.0,
	"step": 205
	},
	{
	"entropy": 1.381903338432312,
	"epoch": 0.38924930491195553,
	"grad_norm": 0.6865923404693604,
	"learning_rate": 1.2490566037735849e-05,
	"loss": 1.1837,
	"mean_token_accuracy": 0.7007428467273712,
	"num_tokens": 216062.0,
	"step": 210
	},
	{
	"entropy": 1.5497890710830688,
	"epoch": 0.3985171455050973,
	"grad_norm": 0.7516324520111084,
	"learning_rate": 1.2301886792452831e-05,
	"loss": 1.3396,
	"mean_token_accuracy": 0.679390799999237,
	"num_tokens": 221238.0,
	"step": 215
	},
	{
	"entropy": 1.629994511604309,
	"epoch": 0.4077849860982391,
	"grad_norm": 0.8432377576828003,
	"learning_rate": 1.2113207547169811e-05,
	"loss": 1.4085,
	"mean_token_accuracy": 0.6734645128250122,
	"num_tokens": 226114.0,
	"step": 220
	},
	{
	"entropy": 1.4988724350929261,
	"epoch": 0.4170528266913809,
	"grad_norm": 0.7744415998458862,
	"learning_rate": 1.1924528301886794e-05,
	"loss": 1.2606,
	"mean_token_accuracy": 0.690128743648529,
	"num_tokens": 230722.0,
	"step": 225
	},
	{
	"entropy": 1.6341279029846192,
	"epoch": 0.4263206672845227,
	"grad_norm": 0.9293099641799927,
	"learning_rate": 1.1735849056603774e-05,
	"loss": 1.3895,
	"mean_token_accuracy": 0.6756053507328034,
	"num_tokens": 235030.0,
	"step": 230
	},
	{
	"entropy": 1.4942476391792296,
	"epoch": 0.4355885078776645,
	"grad_norm": 1.097900629043579,
	"learning_rate": 1.1547169811320756e-05,
	"loss": 1.2779,
	"mean_token_accuracy": 0.6963155150413514,
	"num_tokens": 239053.0,
	"step": 235
	},
	{
	"entropy": 1.4344226121902466,
	"epoch": 0.4448563484708063,
	"grad_norm": 0.9284445643424988,
	"learning_rate": 1.1358490566037737e-05,
	"loss": 1.2624,
	"mean_token_accuracy": 0.6946760237216949,
	"num_tokens": 242797.0,
	"step": 240
	},
	{
	"entropy": 1.6279133677482605,
	"epoch": 0.4541241890639481,
	"grad_norm": 1.8525234460830688,
	"learning_rate": 1.1169811320754717e-05,
	"loss": 1.5141,
	"mean_token_accuracy": 0.6641450226306915,
	"num_tokens": 245262.0,
	"step": 245
	},
	{
	"entropy": 1.5635493040084838,
	"epoch": 0.4633920296570899,
	"grad_norm": 1.4725935459136963,
	"learning_rate": 1.09811320754717e-05,
	"loss": 1.5592,
	"mean_token_accuracy": 0.6816279590129852,
	"num_tokens": 246825.0,
	"step": 250
	},
	{
	"entropy": 1.5720198631286622,
	"epoch": 0.4726598702502317,
	"grad_norm": 0.9245171546936035,
	"learning_rate": 1.079245283018868e-05,
	"loss": 1.4606,
	"mean_token_accuracy": 0.6601259410381317,
	"num_tokens": 256931.0,
	"step": 255
	},
	{
	"entropy": 1.5677057027816772,
	"epoch": 0.4819277108433735,
	"grad_norm": 0.8322890400886536,
	"learning_rate": 1.0603773584905662e-05,
	"loss": 1.4144,
	"mean_token_accuracy": 0.6694712340831757,
	"num_tokens": 263360.0,
	"step": 260
	},
	{
	"entropy": 1.59023619890213,
	"epoch": 0.4911955514365153,
	"grad_norm": 0.7772918939590454,
	"learning_rate": 1.0415094339622642e-05,
	"loss": 1.3723,
	"mean_token_accuracy": 0.6685677945613862,
	"num_tokens": 269174.0,
	"step": 265
	},
	{
	"entropy": 1.5507931351661681,
	"epoch": 0.5004633920296571,
	"grad_norm": 0.8000075221061707,
	"learning_rate": 1.0226415094339623e-05,
	"loss": 1.3126,
	"mean_token_accuracy": 0.6843527674674987,
	"num_tokens": 274595.0,
	"step": 270
	},
	{
	"entropy": 1.5491173028945924,
	"epoch": 0.5097312326227988,
	"grad_norm": 0.8983348608016968,
	"learning_rate": 1.0037735849056605e-05,
	"loss": 1.369,
	"mean_token_accuracy": 0.6823632538318634,
	"num_tokens": 279472.0,
	"step": 275
	},
	{
	"entropy": 1.411498475074768,
	"epoch": 0.5189990732159406,
	"grad_norm": 0.891360878944397,
	"learning_rate": 9.849056603773586e-06,
	"loss": 1.1676,
	"mean_token_accuracy": 0.7068820059299469,
	"num_tokens": 283955.0,
	"step": 280
	},
	{
	"entropy": 1.5002652764320374,
	"epoch": 0.5282669138090825,
	"grad_norm": 0.9551361799240112,
	"learning_rate": 9.660377358490568e-06,
	"loss": 1.2826,
	"mean_token_accuracy": 0.6885687828063964,
	"num_tokens": 288166.0,
	"step": 285
	},
	{
	"entropy": 1.4297375559806824,
	"epoch": 0.5375347544022243,
	"grad_norm": 1.0993260145187378,
	"learning_rate": 9.471698113207548e-06,
	"loss": 1.2081,
	"mean_token_accuracy": 0.7039083421230317,
	"num_tokens": 292143.0,
	"step": 290
	},
	{
	"entropy": 1.5504101514816284,
	"epoch": 0.5468025949953661,
	"grad_norm": 1.0684620141983032,
	"learning_rate": 9.283018867924529e-06,
	"loss": 1.3632,
	"mean_token_accuracy": 0.6732664227485656,
	"num_tokens": 295795.0,
	"step": 295
	},
	{
	"entropy": 1.4705226182937623,
	"epoch": 0.5560704355885079,
	"grad_norm": 2.1173923015594482,
	"learning_rate": 9.09433962264151e-06,
	"loss": 1.4014,
	"mean_token_accuracy": 0.6959770500659943,
	"num_tokens": 297656.0,
	"step": 300
	},
	{
	"entropy": 1.4929959535598756,
	"epoch": 0.5653382761816497,
	"grad_norm": 1.2770863771438599,
	"learning_rate": 8.905660377358491e-06,
	"loss": 1.414,
	"mean_token_accuracy": 0.6737047851085662,
	"num_tokens": 307896.0,
	"step": 305
	},
	{
	"entropy": 1.4795246124267578,
	"epoch": 0.5746061167747915,
	"grad_norm": 0.8402530550956726,
	"learning_rate": 8.716981132075473e-06,
	"loss": 1.3673,
	"mean_token_accuracy": 0.6673755586147309,
	"num_tokens": 314996.0,
	"step": 310
	},
	{
	"entropy": 1.5327817797660828,
	"epoch": 0.5838739573679332,
	"grad_norm": 0.9122950434684753,
	"learning_rate": 8.528301886792454e-06,
	"loss": 1.3569,
	"mean_token_accuracy": 0.6737642705440521,
	"num_tokens": 320535.0,
	"step": 315
	},
	{
	"entropy": 1.4931538462638856,
	"epoch": 0.593141797961075,
	"grad_norm": 0.8541343808174133,
	"learning_rate": 8.339622641509434e-06,
	"loss": 1.2924,
	"mean_token_accuracy": 0.6892772674560547,
	"num_tokens": 325543.0,
	"step": 320
	},
	{
	"entropy": 1.4055845737457275,
	"epoch": 0.6024096385542169,
	"grad_norm": 1.0335566997528076,
	"learning_rate": 8.150943396226417e-06,
	"loss": 1.2071,
	"mean_token_accuracy": 0.7009121060371399,
	"num_tokens": 330160.0,
	"step": 325
	},
	{
	"entropy": 1.3517128109931946,
	"epoch": 0.6116774791473587,
	"grad_norm": 0.9749907851219177,
	"learning_rate": 7.962264150943397e-06,
	"loss": 1.1001,
	"mean_token_accuracy": 0.7244792997837066,
	"num_tokens": 334517.0,
	"step": 330
	},
	{
	"entropy": 1.511979877948761,
	"epoch": 0.6209453197405005,
	"grad_norm": 1.2967917919158936,
	"learning_rate": 7.77358490566038e-06,
	"loss": 1.3045,
	"mean_token_accuracy": 0.6831347227096558,
	"num_tokens": 338603.0,
	"step": 335
	},
	{
	"entropy": 1.4577907562255858,
	"epoch": 0.6302131603336423,
	"grad_norm": 0.9886659383773804,
	"learning_rate": 7.58490566037736e-06,
	"loss": 1.2057,
	"mean_token_accuracy": 0.7024867594242096,
	"num_tokens": 342434.0,
	"step": 340
	},
	{
	"entropy": 1.368123424053192,
	"epoch": 0.6394810009267841,
	"grad_norm": 1.8563096523284912,
	"learning_rate": 7.396226415094339e-06,
	"loss": 1.2631,
	"mean_token_accuracy": 0.7030794739723205,
	"num_tokens": 345119.0,
	"step": 345
	},
	{
	"entropy": 1.550855565071106,
	"epoch": 0.6487488415199258,
	"grad_norm": 1.7384581565856934,
	"learning_rate": 7.207547169811321e-06,
	"loss": 1.5237,
	"mean_token_accuracy": 0.6707696557044983,
	"num_tokens": 346702.0,
	"step": 350
	},
	{
	"entropy": 1.4958812713623046,
	"epoch": 0.6580166821130676,
	"grad_norm": 0.7086682915687561,
	"learning_rate": 7.018867924528302e-06,
	"loss": 1.4053,
	"mean_token_accuracy": 0.6752688169479371,
	"num_tokens": 356942.0,
	"step": 355
	},
	{
	"entropy": 1.558197546005249,
	"epoch": 0.6672845227062094,
	"grad_norm": 0.7285569310188293,
	"learning_rate": 6.830188679245283e-06,
	"loss": 1.4605,
	"mean_token_accuracy": 0.6629868388175965,
	"num_tokens": 366408.0,
	"step": 360
	},
	{
	"entropy": 1.6734450340270997,
	"epoch": 0.6765523632993512,
	"grad_norm": 0.8609201908111572,
	"learning_rate": 6.641509433962265e-06,
	"loss": 1.5822,
	"mean_token_accuracy": 0.6437154173851013,
	"num_tokens": 373516.0,
	"step": 365
	},
	{
	"entropy": 1.5121603965759278,
	"epoch": 0.6858202038924931,
	"grad_norm": 0.8602127432823181,
	"learning_rate": 6.452830188679245e-06,
	"loss": 1.3354,
	"mean_token_accuracy": 0.6697323322296143,
	"num_tokens": 379078.0,
	"step": 370
	},
	{
	"entropy": 1.5671154141426087,
	"epoch": 0.6950880444856349,
	"grad_norm": 1.0804234743118286,
	"learning_rate": 6.2641509433962265e-06,
	"loss": 1.3706,
	"mean_token_accuracy": 0.6781690716743469,
	"num_tokens": 384082.0,
	"step": 375
	},
	{
	"entropy": 1.4360106825828551,
	"epoch": 0.7043558850787767,
	"grad_norm": 1.0533781051635742,
	"learning_rate": 6.075471698113208e-06,
	"loss": 1.2339,
	"mean_token_accuracy": 0.6931209981441497,
	"num_tokens": 388701.0,
	"step": 380
	},
	{
	"entropy": 1.3446730136871339,
	"epoch": 0.7136237256719185,
	"grad_norm": 1.0057952404022217,
	"learning_rate": 5.886792452830189e-06,
	"loss": 1.1451,
	"mean_token_accuracy": 0.7143323004245759,
	"num_tokens": 393032.0,
	"step": 385
	},
	{
	"entropy": 1.3606623888015748,
	"epoch": 0.7228915662650602,
	"grad_norm": 0.9760032296180725,
	"learning_rate": 5.6981132075471704e-06,
	"loss": 1.1359,
	"mean_token_accuracy": 0.7167974233627319,
	"num_tokens": 397054.0,
	"step": 390
	},
	{
	"entropy": 1.3662820339202881,
	"epoch": 0.732159406858202,
	"grad_norm": 1.250963807106018,
	"learning_rate": 5.509433962264151e-06,
	"loss": 1.1525,
	"mean_token_accuracy": 0.7196339964866638,
	"num_tokens": 400475.0,
	"step": 395
	},
	{
	"entropy": 1.5162119686603546,
	"epoch": 0.7414272474513438,
	"grad_norm": 2.1900084018707275,
	"learning_rate": 5.320754716981132e-06,
	"loss": 1.4817,
	"mean_token_accuracy": 0.6947880864143372,
	"num_tokens": 402190.0,
	"step": 400
	},
	{
	"entropy": 1.4912107944488526,
	"epoch": 0.7506950880444856,
	"grad_norm": 0.6602088809013367,
	"learning_rate": 5.1320754716981136e-06,
	"loss": 1.3781,
	"mean_token_accuracy": 0.6775171160697937,
	"num_tokens": 412430.0,
	"step": 405
	},
	{
	"entropy": 1.677505886554718,
	"epoch": 0.7599629286376274,
	"grad_norm": 0.8567835688591003,
	"learning_rate": 4.943396226415095e-06,
	"loss": 1.5629,
	"mean_token_accuracy": 0.638292646408081,
	"num_tokens": 419893.0,
	"step": 410
	},
	{
	"entropy": 1.4946231245994568,
	"epoch": 0.7692307692307693,
	"grad_norm": 0.9445057511329651,
	"learning_rate": 4.754716981132076e-06,
	"loss": 1.3326,
	"mean_token_accuracy": 0.6779886364936829,
	"num_tokens": 425619.0,
	"step": 415
	},
	{
	"entropy": 1.3864770650863647,
	"epoch": 0.7784986098239111,
	"grad_norm": 0.8252947926521301,
	"learning_rate": 4.566037735849057e-06,
	"loss": 1.2169,
	"mean_token_accuracy": 0.7035700976848602,
	"num_tokens": 430797.0,
	"step": 420
	},
	{
	"entropy": 1.5413469910621642,
	"epoch": 0.7877664504170528,
	"grad_norm": 1.1849970817565918,
	"learning_rate": 4.377358490566038e-06,
	"loss": 1.3547,
	"mean_token_accuracy": 0.6810157537460327,
	"num_tokens": 435596.0,
	"step": 425
	},
	{
	"entropy": 1.3699937224388123,
	"epoch": 0.7970342910101946,
	"grad_norm": 0.877142608165741,
	"learning_rate": 4.188679245283019e-06,
	"loss": 1.1797,
	"mean_token_accuracy": 0.7002040147781372,
	"num_tokens": 440241.0,
	"step": 430
	},
	{
	"entropy": 1.391974401473999,
	"epoch": 0.8063021316033364,
	"grad_norm": 1.0411101579666138,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.1623,
	"mean_token_accuracy": 0.7032719731330872,
	"num_tokens": 444603.0,
	"step": 435
	},
	{
	"entropy": 1.5593681573867797,
	"epoch": 0.8155699721964782,
	"grad_norm": 1.07487154006958,
	"learning_rate": 3.8113207547169816e-06,
	"loss": 1.3711,
	"mean_token_accuracy": 0.6782773613929749,
	"num_tokens": 448697.0,
	"step": 440
	},
	{
	"entropy": 1.3416823267936706,
	"epoch": 0.82483781278962,
	"grad_norm": 1.0888190269470215,
	"learning_rate": 3.6226415094339625e-06,
	"loss": 1.1324,
	"mean_token_accuracy": 0.7193882942199707,
	"num_tokens": 452317.0,
	"step": 445
	},
	{
	"entropy": 1.5021097183227539,
	"epoch": 0.8341056533827618,
	"grad_norm": 2.1909356117248535,
	"learning_rate": 3.4339622641509434e-06,
	"loss": 1.4446,
	"mean_token_accuracy": 0.6848468244075775,
	"num_tokens": 453964.0,
	"step": 450
	},
	{
	"entropy": 1.5324198842048644,
	"epoch": 0.8433734939759037,
	"grad_norm": 0.7571365833282471,
	"learning_rate": 3.2452830188679247e-06,
	"loss": 1.4131,
	"mean_token_accuracy": 0.6636363625526428,
	"num_tokens": 464204.0,
	"step": 455
	},
	{
	"entropy": 1.3785831093788148,
	"epoch": 0.8526413345690455,
	"grad_norm": 0.7701159119606018,
	"learning_rate": 3.0566037735849056e-06,
	"loss": 1.2441,
	"mean_token_accuracy": 0.6936827838420868,
	"num_tokens": 473089.0,
	"step": 460
	},
	{
	"entropy": 1.4654639124870301,
	"epoch": 0.8619091751621872,
	"grad_norm": 0.9103213548660278,
	"learning_rate": 2.867924528301887e-06,
	"loss": 1.3014,
	"mean_token_accuracy": 0.685904186964035,
	"num_tokens": 479410.0,
	"step": 465
	},
	{
	"entropy": 1.533838427066803,
	"epoch": 0.871177015755329,
	"grad_norm": 0.8901606202125549,
	"learning_rate": 2.6792452830188682e-06,
	"loss": 1.3928,
	"mean_token_accuracy": 0.6758940577507019,
	"num_tokens": 485110.0,
	"step": 470
	},
	{
	"entropy": 1.3798070430755616,
	"epoch": 0.8804448563484708,
	"grad_norm": 1.0601820945739746,
	"learning_rate": 2.490566037735849e-06,
	"loss": 1.1907,
	"mean_token_accuracy": 0.7054125189781189,
	"num_tokens": 490180.0,
	"step": 475
	},
	{
	"entropy": 1.4131479620933534,
	"epoch": 0.8897126969416126,
	"grad_norm": 0.8970419764518738,
	"learning_rate": 2.3018867924528305e-06,
	"loss": 1.1863,
	"mean_token_accuracy": 0.7067974150180817,
	"num_tokens": 494890.0,
	"step": 480
	},
	{
	"entropy": 1.4630970120429994,
	"epoch": 0.8989805375347544,
	"grad_norm": 1.003049373626709,
	"learning_rate": 2.1132075471698114e-06,
	"loss": 1.2327,
	"mean_token_accuracy": 0.6967244625091553,
	"num_tokens": 499349.0,
	"step": 485
	},
	{
	"entropy": 1.3104987263679504,
	"epoch": 0.9082483781278962,
	"grad_norm": 1.0828076601028442,
	"learning_rate": 1.9245283018867927e-06,
	"loss": 1.1085,
	"mean_token_accuracy": 0.7211176335811615,
	"num_tokens": 503600.0,
	"step": 490
	},
	{
	"entropy": 1.4279333114624024,
	"epoch": 0.917516218721038,
	"grad_norm": 1.2222362756729126,
	"learning_rate": 1.7358490566037736e-06,
	"loss": 1.2275,
	"mean_token_accuracy": 0.703647392988205,
	"num_tokens": 507413.0,
	"step": 495
	},
	{
	"entropy": 1.4541478991508483,
	"epoch": 0.9267840593141798,
	"grad_norm": 2.478383779525757,
	"learning_rate": 1.5471698113207547e-06,
	"loss": 1.433,
	"mean_token_accuracy": 0.7055663108825684,
	"num_tokens": 508911.0,
	"step": 500
	},
	{
	"entropy": 1.504941475391388,
	"epoch": 0.9360518999073216,
	"grad_norm": 0.7645187973976135,
	"learning_rate": 1.358490566037736e-06,
	"loss": 1.3723,
	"mean_token_accuracy": 0.6745567083358764,
	"num_tokens": 518390.0,
	"step": 505
	},
	{
	"entropy": 1.574069583415985,
	"epoch": 0.9453197405004634,
	"grad_norm": 0.9938948750495911,
	"learning_rate": 1.1698113207547171e-06,
	"loss": 1.4143,
	"mean_token_accuracy": 0.6633340060710907,
	"num_tokens": 524489.0,
	"step": 510
	},
	{
	"entropy": 1.3694233775138855,
	"epoch": 0.9545875810936052,
	"grad_norm": 0.9658361673355103,
	"learning_rate": 9.811320754716983e-07,
	"loss": 1.1829,
	"mean_token_accuracy": 0.7040388941764831,
	"num_tokens": 529543.0,
	"step": 515
	},
	{
	"entropy": 1.41559841632843,
	"epoch": 0.963855421686747,
	"grad_norm": 0.9936702251434326,
	"learning_rate": 7.924528301886793e-07,
	"loss": 1.2234,
	"mean_token_accuracy": 0.7022507786750793,
	"num_tokens": 534072.0,
	"step": 520
	},
	{
	"entropy": 1.391177773475647,
	"epoch": 0.9731232622798888,
	"grad_norm": 0.959622323513031,
	"learning_rate": 6.037735849056605e-07,
	"loss": 1.2196,
	"mean_token_accuracy": 0.6922858953475952,
	"num_tokens": 538321.0,
	"step": 525
	},
	{
	"entropy": 1.3745897650718688,
	"epoch": 0.9823911028730306,
	"grad_norm": 1.3114018440246582,
	"learning_rate": 4.1509433962264154e-07,
	"loss": 1.1473,
	"mean_token_accuracy": 0.7134360671043396,
	"num_tokens": 542222.0,
	"step": 530
	},
	{
	"entropy": 1.492677342891693,
	"epoch": 0.9916589434661723,
	"grad_norm": 1.9476492404937744,
	"learning_rate": 2.2641509433962265e-07,
	"loss": 1.3013,
	"mean_token_accuracy": 0.6977547407150269,
	"num_tokens": 545236.0,
	"step": 535
	},
	{
	"entropy": 1.4785194396972656,
	"epoch": 1.0,
	"grad_norm": 3.7451815605163574,
	"learning_rate": 3.773584905660378e-08,
	"loss": 1.4539,
	"mean_token_accuracy": 0.69340937005149,
	"num_tokens": 546641.0,
	"step": 540
	}
	],
	"logging_steps": 5,
	"max_steps": 540,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.4637351756455936e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}