{
  "best_metric": 0.8779851794242859,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.013589033649844576,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 6.794516824922288e-05,
      "grad_norm": 4.541988372802734,
      "learning_rate": 1e-05,
      "loss": 3.5442,
      "step": 1
    },
    {
      "epoch": 6.794516824922288e-05,
      "eval_loss": 2.9374470710754395,
      "eval_runtime": 744.2932,
      "eval_samples_per_second": 33.304,
      "eval_steps_per_second": 8.326,
      "step": 1
    },
    {
      "epoch": 0.00013589033649844575,
      "grad_norm": 5.602364540100098,
      "learning_rate": 2e-05,
      "loss": 2.9698,
      "step": 2
    },
    {
      "epoch": 0.00020383550474766863,
      "grad_norm": 5.699765682220459,
      "learning_rate": 3e-05,
      "loss": 3.0644,
      "step": 3
    },
    {
      "epoch": 0.0002717806729968915,
      "grad_norm": 6.6605224609375,
      "learning_rate": 4e-05,
      "loss": 2.9805,
      "step": 4
    },
    {
      "epoch": 0.00033972584124611436,
      "grad_norm": 7.195826053619385,
      "learning_rate": 5e-05,
      "loss": 2.6281,
      "step": 5
    },
    {
      "epoch": 0.00040767100949533726,
      "grad_norm": 6.719155311584473,
      "learning_rate": 6e-05,
      "loss": 2.2512,
      "step": 6
    },
    {
      "epoch": 0.0004756161777445601,
      "grad_norm": 4.800049781799316,
      "learning_rate": 7e-05,
      "loss": 1.9953,
      "step": 7
    },
    {
      "epoch": 0.000543561345993783,
      "grad_norm": 4.074288845062256,
      "learning_rate": 8e-05,
      "loss": 1.6061,
      "step": 8
    },
    {
      "epoch": 0.0006115065142430059,
      "grad_norm": 3.109107255935669,
      "learning_rate": 9e-05,
      "loss": 1.5561,
      "step": 9
    },
    {
      "epoch": 0.0006794516824922287,
      "grad_norm": 2.8320536613464355,
      "learning_rate": 0.0001,
      "loss": 1.4628,
      "step": 10
    },
    {
      "epoch": 0.0007473968507414517,
      "grad_norm": 3.3554446697235107,
      "learning_rate": 9.999316524962345e-05,
      "loss": 1.2107,
      "step": 11
    },
    {
      "epoch": 0.0008153420189906745,
      "grad_norm": 3.3531596660614014,
      "learning_rate": 9.997266286704631e-05,
      "loss": 1.3763,
      "step": 12
    },
    {
      "epoch": 0.0008832871872398974,
      "grad_norm": 2.8483469486236572,
      "learning_rate": 9.993849845741524e-05,
      "loss": 1.1467,
      "step": 13
    },
    {
      "epoch": 0.0009512323554891202,
      "grad_norm": 2.9898228645324707,
      "learning_rate": 9.989068136093873e-05,
      "loss": 1.4578,
      "step": 14
    },
    {
      "epoch": 0.001019177523738343,
      "grad_norm": 2.460214853286743,
      "learning_rate": 9.98292246503335e-05,
      "loss": 1.1619,
      "step": 15
    },
    {
      "epoch": 0.001087122691987566,
      "grad_norm": 1.9778937101364136,
      "learning_rate": 9.975414512725057e-05,
      "loss": 1.1836,
      "step": 16
    },
    {
      "epoch": 0.001155067860236789,
      "grad_norm": 1.9914544820785522,
      "learning_rate": 9.966546331768191e-05,
      "loss": 1.0839,
      "step": 17
    },
    {
      "epoch": 0.0012230130284860117,
      "grad_norm": 1.832066535949707,
      "learning_rate": 9.956320346634876e-05,
      "loss": 1.1229,
      "step": 18
    },
    {
      "epoch": 0.0012909581967352347,
      "grad_norm": 2.2513105869293213,
      "learning_rate": 9.944739353007344e-05,
      "loss": 1.2166,
      "step": 19
    },
    {
      "epoch": 0.0013589033649844574,
      "grad_norm": 1.7080084085464478,
      "learning_rate": 9.931806517013612e-05,
      "loss": 1.2391,
      "step": 20
    },
    {
      "epoch": 0.0014268485332336804,
      "grad_norm": 1.7092275619506836,
      "learning_rate": 9.917525374361912e-05,
      "loss": 1.0669,
      "step": 21
    },
    {
      "epoch": 0.0014947937014829034,
      "grad_norm": 1.4971708059310913,
      "learning_rate": 9.901899829374047e-05,
      "loss": 1.161,
      "step": 22
    },
    {
      "epoch": 0.001562738869732126,
      "grad_norm": 1.6746459007263184,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.9036,
      "step": 23
    },
    {
      "epoch": 0.001630684037981349,
      "grad_norm": 1.8930819034576416,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.8748,
      "step": 24
    },
    {
      "epoch": 0.001698629206230572,
      "grad_norm": 1.611466884613037,
      "learning_rate": 9.847001329696653e-05,
      "loss": 1.042,
      "step": 25
    },
    {
      "epoch": 0.0017665743744797948,
      "grad_norm": 1.6468819379806519,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.9105,
      "step": 26
    },
    {
      "epoch": 0.0018345195427290177,
      "grad_norm": 1.7885971069335938,
      "learning_rate": 9.803768380684242e-05,
      "loss": 1.1071,
      "step": 27
    },
    {
      "epoch": 0.0019024647109782405,
      "grad_norm": 2.106074810028076,
      "learning_rate": 9.780178907671789e-05,
      "loss": 1.4714,
      "step": 28
    },
    {
      "epoch": 0.0019704098792274636,
      "grad_norm": 1.5267417430877686,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.1504,
      "step": 29
    },
    {
      "epoch": 0.002038355047476686,
      "grad_norm": 1.5536612272262573,
      "learning_rate": 9.729086208503174e-05,
      "loss": 1.2906,
      "step": 30
    },
    {
      "epoch": 0.002106300215725909,
      "grad_norm": 1.7584234476089478,
      "learning_rate": 9.701596950580806e-05,
      "loss": 1.3717,
      "step": 31
    },
    {
      "epoch": 0.002174245383975132,
      "grad_norm": 1.547165870666504,
      "learning_rate": 9.672822322997305e-05,
      "loss": 1.2483,
      "step": 32
    },
    {
      "epoch": 0.002242190552224355,
      "grad_norm": 1.724450707435608,
      "learning_rate": 9.642770192448536e-05,
      "loss": 1.305,
      "step": 33
    },
    {
      "epoch": 0.002310135720473578,
      "grad_norm": 1.5904020071029663,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.9812,
      "step": 34
    },
    {
      "epoch": 0.0023780808887228005,
      "grad_norm": 1.3201074600219727,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.8694,
      "step": 35
    },
    {
      "epoch": 0.0024460260569720235,
      "grad_norm": 1.613362431526184,
      "learning_rate": 9.545032675245813e-05,
      "loss": 1.1414,
      "step": 36
    },
    {
      "epoch": 0.0025139712252212464,
      "grad_norm": 1.6316274404525757,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.9349,
      "step": 37
    },
    {
      "epoch": 0.0025819163934704694,
      "grad_norm": 1.3405286073684692,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.889,
      "step": 38
    },
    {
      "epoch": 0.0026498615617196923,
      "grad_norm": 1.4392009973526,
      "learning_rate": 9.43611409721806e-05,
      "loss": 1.0548,
      "step": 39
    },
    {
      "epoch": 0.002717806729968915,
      "grad_norm": 1.3993514776229858,
      "learning_rate": 9.397368756032445e-05,
      "loss": 1.2267,
      "step": 40
    },
    {
      "epoch": 0.002785751898218138,
      "grad_norm": 1.461212158203125,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.9689,
      "step": 41
    },
    {
      "epoch": 0.002853697066467361,
      "grad_norm": 1.414821982383728,
      "learning_rate": 9.316282404787871e-05,
      "loss": 1.1698,
      "step": 42
    },
    {
      "epoch": 0.0029216422347165837,
      "grad_norm": 1.6136668920516968,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.9554,
      "step": 43
    },
    {
      "epoch": 0.0029895874029658067,
      "grad_norm": 1.3940544128417969,
      "learning_rate": 9.230476262104677e-05,
      "loss": 0.8861,
      "step": 44
    },
    {
      "epoch": 0.0030575325712150297,
      "grad_norm": 1.5752577781677246,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.8937,
      "step": 45
    },
    {
      "epoch": 0.003125477739464252,
      "grad_norm": 1.6326439380645752,
      "learning_rate": 9.140044155740101e-05,
      "loss": 1.0785,
      "step": 46
    },
    {
      "epoch": 0.003193422907713475,
      "grad_norm": 1.709071159362793,
      "learning_rate": 9.093124073433463e-05,
      "loss": 1.0748,
      "step": 47
    },
    {
      "epoch": 0.003261368075962698,
      "grad_norm": 1.5396602153778076,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.0806,
      "step": 48
    },
    {
      "epoch": 0.003329313244211921,
      "grad_norm": 1.6349711418151855,
      "learning_rate": 8.995939984474624e-05,
      "loss": 1.0918,
      "step": 49
    },
    {
      "epoch": 0.003397258412461144,
      "grad_norm": 1.697606086730957,
      "learning_rate": 8.945702546981969e-05,
      "loss": 1.0213,
      "step": 50
    },
    {
      "epoch": 0.003397258412461144,
      "eval_loss": 1.0084954500198364,
      "eval_runtime": 745.2409,
      "eval_samples_per_second": 33.262,
      "eval_steps_per_second": 8.315,
      "step": 50
    },
    {
      "epoch": 0.0034652035807103665,
      "grad_norm": 4.597539901733398,
      "learning_rate": 8.894386393810563e-05,
      "loss": 2.5657,
      "step": 51
    },
    {
      "epoch": 0.0035331487489595895,
      "grad_norm": 1.9072340726852417,
      "learning_rate": 8.842005554284296e-05,
      "loss": 1.2936,
      "step": 52
    },
    {
      "epoch": 0.0036010939172088125,
      "grad_norm": 1.5185514688491821,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.9191,
      "step": 53
    },
    {
      "epoch": 0.0036690390854580354,
      "grad_norm": 1.5608372688293457,
      "learning_rate": 8.73410738492077e-05,
      "loss": 1.1377,
      "step": 54
    },
    {
      "epoch": 0.0037369842537072584,
      "grad_norm": 1.3849663734436035,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.9208,
      "step": 55
    },
    {
      "epoch": 0.003804929421956481,
      "grad_norm": 1.8905344009399414,
      "learning_rate": 8.622126023955446e-05,
      "loss": 1.0959,
      "step": 56
    },
    {
      "epoch": 0.003872874590205704,
      "grad_norm": 1.5179859399795532,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.9798,
      "step": 57
    },
    {
      "epoch": 0.003940819758454927,
      "grad_norm": 1.2803945541381836,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.8571,
      "step": 58
    },
    {
      "epoch": 0.00400876492670415,
      "grad_norm": 1.5984824895858765,
      "learning_rate": 8.44676704559283e-05,
      "loss": 1.1864,
      "step": 59
    },
    {
      "epoch": 0.004076710094953372,
      "grad_norm": 1.44520103931427,
      "learning_rate": 8.386407858128706e-05,
      "loss": 1.1559,
      "step": 60
    },
    {
      "epoch": 0.004144655263202596,
      "grad_norm": 1.4963399171829224,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.9976,
      "step": 61
    },
    {
      "epoch": 0.004212600431451818,
      "grad_norm": 1.3376528024673462,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.8806,
      "step": 62
    },
    {
      "epoch": 0.004280545599701042,
      "grad_norm": 1.2553640604019165,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.8856,
      "step": 63
    },
    {
      "epoch": 0.004348490767950264,
      "grad_norm": 1.4432660341262817,
      "learning_rate": 8.135881792367686e-05,
      "loss": 0.9785,
      "step": 64
    },
    {
      "epoch": 0.004416435936199487,
      "grad_norm": 1.5079063177108765,
      "learning_rate": 8.07106356344834e-05,
      "loss": 1.1258,
      "step": 65
    },
    {
      "epoch": 0.00448438110444871,
      "grad_norm": 1.5423941612243652,
      "learning_rate": 8.005405736415126e-05,
      "loss": 1.2749,
      "step": 66
    },
    {
      "epoch": 0.004552326272697933,
      "grad_norm": 1.2162669897079468,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.9212,
      "step": 67
    },
    {
      "epoch": 0.004620271440947156,
      "grad_norm": 1.4691016674041748,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.938,
      "step": 68
    },
    {
      "epoch": 0.0046882166091963785,
      "grad_norm": 1.2078229188919067,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.8756,
      "step": 69
    },
    {
      "epoch": 0.004756161777445601,
      "grad_norm": 1.8256866931915283,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.9884,
      "step": 70
    },
    {
      "epoch": 0.004824106945694824,
      "grad_norm": 1.5101927518844604,
      "learning_rate": 7.66515864363997e-05,
      "loss": 1.1037,
      "step": 71
    },
    {
      "epoch": 0.004892052113944047,
      "grad_norm": 1.436776876449585,
      "learning_rate": 7.594847868906076e-05,
      "loss": 1.033,
      "step": 72
    },
    {
      "epoch": 0.00495999728219327,
      "grad_norm": 1.3707020282745361,
      "learning_rate": 7.52382768867422e-05,
      "loss": 1.0108,
      "step": 73
    },
    {
      "epoch": 0.005027942450442493,
      "grad_norm": 1.4553141593933105,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.9376,
      "step": 74
    },
    {
      "epoch": 0.005095887618691715,
      "grad_norm": 1.451073408126831,
      "learning_rate": 7.379736965185368e-05,
      "loss": 1.0237,
      "step": 75
    },
    {
      "epoch": 0.005163832786940939,
      "grad_norm": 1.4424973726272583,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.8351,
      "step": 76
    },
    {
      "epoch": 0.005231777955190161,
      "grad_norm": 1.415114402770996,
      "learning_rate": 7.233044034264034e-05,
      "loss": 1.0084,
      "step": 77
    },
    {
      "epoch": 0.005299723123439385,
      "grad_norm": 1.3484498262405396,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.9152,
      "step": 78
    },
    {
      "epoch": 0.005367668291688607,
      "grad_norm": 1.3542028665542603,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.8039,
      "step": 79
    },
    {
      "epoch": 0.00543561345993783,
      "grad_norm": 1.4020220041275024,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.809,
      "step": 80
    },
    {
      "epoch": 0.005503558628187053,
      "grad_norm": 1.4154884815216064,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.8885,
      "step": 81
    },
    {
      "epoch": 0.005571503796436276,
      "grad_norm": 1.5623944997787476,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.7663,
      "step": 82
    },
    {
      "epoch": 0.005639448964685499,
      "grad_norm": 1.531378149986267,
      "learning_rate": 6.778969234612584e-05,
      "loss": 1.0709,
      "step": 83
    },
    {
      "epoch": 0.005707394132934722,
      "grad_norm": 1.5272456407546997,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.9294,
      "step": 84
    },
    {
      "epoch": 0.005775339301183945,
      "grad_norm": 1.317095398902893,
      "learning_rate": 6.623497346023418e-05,
      "loss": 0.8606,
      "step": 85
    },
    {
      "epoch": 0.0058432844694331675,
      "grad_norm": 1.432180643081665,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.0153,
      "step": 86
    },
    {
      "epoch": 0.00591122963768239,
      "grad_norm": 1.1385273933410645,
      "learning_rate": 6.466250186922325e-05,
      "loss": 0.6869,
      "step": 87
    },
    {
      "epoch": 0.005979174805931613,
      "grad_norm": 1.6290560960769653,
      "learning_rate": 6.387014543809223e-05,
      "loss": 0.9204,
      "step": 88
    },
    {
      "epoch": 0.006047119974180836,
      "grad_norm": 1.3645331859588623,
      "learning_rate": 6.307399704769099e-05,
      "loss": 0.8613,
      "step": 89
    },
    {
      "epoch": 0.006115065142430059,
      "grad_norm": 1.492605447769165,
      "learning_rate": 6.227427435703997e-05,
      "loss": 0.8773,
      "step": 90
    },
    {
      "epoch": 0.006183010310679282,
      "grad_norm": 1.4680728912353516,
      "learning_rate": 6.147119600233758e-05,
      "loss": 0.9206,
      "step": 91
    },
    {
      "epoch": 0.006250955478928504,
      "grad_norm": 1.468100666999817,
      "learning_rate": 6.066498153718735e-05,
      "loss": 0.9393,
      "step": 92
    },
    {
      "epoch": 0.006318900647177728,
      "grad_norm": 1.3103859424591064,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.7964,
      "step": 93
    },
    {
      "epoch": 0.00638684581542695,
      "grad_norm": 1.5302327871322632,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.9611,
      "step": 94
    },
    {
      "epoch": 0.006454790983676174,
      "grad_norm": 1.4091967344284058,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.8806,
      "step": 95
    },
    {
      "epoch": 0.006522736151925396,
      "grad_norm": 1.7879908084869385,
      "learning_rate": 5.74131823855921e-05,
      "loss": 1.0384,
      "step": 96
    },
    {
      "epoch": 0.006590681320174619,
      "grad_norm": 1.4861549139022827,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.9904,
      "step": 97
    },
    {
      "epoch": 0.006658626488423842,
      "grad_norm": 1.3921679258346558,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.8898,
      "step": 98
    },
    {
      "epoch": 0.006726571656673065,
      "grad_norm": 1.4546233415603638,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.8461,
      "step": 99
    },
    {
      "epoch": 0.006794516824922288,
      "grad_norm": 1.5699365139007568,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.8689,
      "step": 100
    },
    {
      "epoch": 0.006794516824922288,
      "eval_loss": 0.9311144948005676,
      "eval_runtime": 745.6222,
      "eval_samples_per_second": 33.245,
      "eval_steps_per_second": 8.311,
      "step": 100
    },
    {
      "epoch": 0.0068624619931715106,
      "grad_norm": 2.6663312911987305,
      "learning_rate": 5.330452921628497e-05,
      "loss": 1.8709,
      "step": 101
    },
    {
      "epoch": 0.006930407161420733,
      "grad_norm": 1.6057920455932617,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.9293,
      "step": 102
    },
    {
      "epoch": 0.0069983523296699565,
      "grad_norm": 1.5306603908538818,
      "learning_rate": 5.165316846586541e-05,
      "loss": 1.0654,
      "step": 103
    },
    {
      "epoch": 0.007066297497919179,
      "grad_norm": 1.4421031475067139,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.9009,
      "step": 104
    },
    {
      "epoch": 0.007134242666168402,
      "grad_norm": 1.6835302114486694,
      "learning_rate": 5e-05,
      "loss": 0.8783,
      "step": 105
    },
    {
      "epoch": 0.007202187834417625,
      "grad_norm": 1.5610986948013306,
      "learning_rate": 4.917330276168208e-05,
      "loss": 0.9724,
      "step": 106
    },
    {
      "epoch": 0.0072701330026668474,
      "grad_norm": 1.4587010145187378,
      "learning_rate": 4.834683153413459e-05,
      "loss": 1.0891,
      "step": 107
    },
    {
      "epoch": 0.007338078170916071,
      "grad_norm": 1.35841703414917,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.9597,
      "step": 108
    },
    {
      "epoch": 0.007406023339165293,
      "grad_norm": 1.5661109685897827,
      "learning_rate": 4.669547078371504e-05,
      "loss": 1.0545,
      "step": 109
    },
    {
      "epoch": 0.007473968507414517,
      "grad_norm": 1.4850647449493408,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 1.012,
      "step": 110
    },
    {
      "epoch": 0.007541913675663739,
      "grad_norm": 1.4034045934677124,
      "learning_rate": 4.504772348747687e-05,
      "loss": 1.0088,
      "step": 111
    },
    {
      "epoch": 0.007609858843912962,
      "grad_norm": 1.4886139631271362,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 1.0745,
      "step": 112
    },
    {
      "epoch": 0.007677804012162185,
      "grad_norm": 1.3524532318115234,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.7801,
      "step": 113
    },
    {
      "epoch": 0.007745749180411408,
      "grad_norm": 1.2967817783355713,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.8624,
      "step": 114
    },
    {
      "epoch": 0.007813694348660631,
      "grad_norm": 1.3213623762130737,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.974,
      "step": 115
    },
    {
      "epoch": 0.007881639516909855,
      "grad_norm": 1.2647970914840698,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.8427,
      "step": 116
    },
    {
      "epoch": 0.007949584685159076,
      "grad_norm": 1.4528709650039673,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 1.0063,
      "step": 117
    },
    {
      "epoch": 0.0080175298534083,
      "grad_norm": 1.3942514657974243,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.8878,
      "step": 118
    },
    {
      "epoch": 0.008085475021657523,
      "grad_norm": 1.445056676864624,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.8118,
      "step": 119
    },
    {
      "epoch": 0.008153420189906745,
      "grad_norm": 1.4020602703094482,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.7265,
      "step": 120
    },
    {
      "epoch": 0.008221365358155968,
      "grad_norm": 1.200977087020874,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.8522,
      "step": 121
    },
    {
      "epoch": 0.008289310526405191,
      "grad_norm": 1.3667937517166138,
      "learning_rate": 3.612985456190778e-05,
      "loss": 1.0003,
      "step": 122
    },
    {
      "epoch": 0.008357255694654413,
      "grad_norm": 1.3157802820205688,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.6787,
      "step": 123
    },
    {
      "epoch": 0.008425200862903636,
      "grad_norm": 1.359354853630066,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.7047,
      "step": 124
    },
    {
      "epoch": 0.00849314603115286,
      "grad_norm": 1.329197883605957,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.9186,
      "step": 125
    },
    {
      "epoch": 0.008561091199402083,
      "grad_norm": 1.259287714958191,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.7804,
      "step": 126
    },
    {
      "epoch": 0.008629036367651305,
      "grad_norm": 1.2713652849197388,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.801,
      "step": 127
    },
    {
      "epoch": 0.008696981535900528,
      "grad_norm": 1.3067623376846313,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.8171,
      "step": 128
    },
    {
      "epoch": 0.008764926704149752,
      "grad_norm": 1.3344271183013916,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.8231,
      "step": 129
    },
    {
      "epoch": 0.008832871872398973,
      "grad_norm": 1.5270825624465942,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.9556,
      "step": 130
    },
    {
      "epoch": 0.008900817040648197,
      "grad_norm": 1.301530361175537,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.7682,
      "step": 131
    },
    {
      "epoch": 0.00896876220889742,
      "grad_norm": 1.286014437675476,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.7955,
      "step": 132
    },
    {
      "epoch": 0.009036707377146644,
      "grad_norm": 1.3590072393417358,
      "learning_rate": 2.766955965735968e-05,
      "loss": 1.0167,
      "step": 133
    },
    {
      "epoch": 0.009104652545395865,
      "grad_norm": 1.3346413373947144,
      "learning_rate": 2.693294185106562e-05,
      "loss": 0.9195,
      "step": 134
    },
    {
      "epoch": 0.009172597713645089,
      "grad_norm": 1.517244577407837,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.8947,
      "step": 135
    },
    {
      "epoch": 0.009240542881894312,
      "grad_norm": 1.376044511795044,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.8438,
      "step": 136
    },
    {
      "epoch": 0.009308488050143534,
      "grad_norm": 1.340003490447998,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.854,
      "step": 137
    },
    {
      "epoch": 0.009376433218392757,
      "grad_norm": 1.4135648012161255,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.881,
      "step": 138
    },
    {
      "epoch": 0.00944437838664198,
      "grad_norm": 1.3948142528533936,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.8326,
      "step": 139
    },
    {
      "epoch": 0.009512323554891202,
      "grad_norm": 1.257359266281128,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.8134,
      "step": 140
    },
    {
      "epoch": 0.009580268723140425,
      "grad_norm": 1.3038392066955566,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.7668,
      "step": 141
    },
    {
      "epoch": 0.009648213891389649,
      "grad_norm": 1.3705246448516846,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.7689,
      "step": 142
    },
    {
      "epoch": 0.009716159059638872,
      "grad_norm": 1.4038500785827637,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.8775,
      "step": 143
    },
    {
      "epoch": 0.009784104227888094,
      "grad_norm": 1.355369210243225,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.937,
      "step": 144
    },
    {
      "epoch": 0.009852049396137317,
      "grad_norm": 1.4261817932128906,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.8538,
      "step": 145
    },
    {
      "epoch": 0.00991999456438654,
      "grad_norm": 1.4961003065109253,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.8743,
      "step": 146
    },
    {
      "epoch": 0.009987939732635762,
      "grad_norm": 1.3098398447036743,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.7835,
      "step": 147
    },
    {
      "epoch": 0.010055884900884986,
      "grad_norm": 1.6524986028671265,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.9364,
      "step": 148
    },
    {
      "epoch": 0.010123830069134209,
      "grad_norm": 1.8079731464385986,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 1.0045,
      "step": 149
    },
    {
      "epoch": 0.01019177523738343,
      "grad_norm": 1.5971816778182983,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.9501,
      "step": 150
    },
    {
      "epoch": 0.01019177523738343,
      "eval_loss": 0.8900856375694275,
      "eval_runtime": 745.695,
      "eval_samples_per_second": 33.241,
      "eval_steps_per_second": 8.31,
      "step": 150
    },
    {
      "epoch": 0.010259720405632654,
      "grad_norm": 4.6490373611450195,
      "learning_rate": 1.553232954407171e-05,
      "loss": 2.5133,
      "step": 151
    },
    {
      "epoch": 0.010327665573881878,
      "grad_norm": 1.6955604553222656,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 1.2536,
      "step": 152
    },
    {
      "epoch": 0.010395610742131101,
      "grad_norm": 1.4058607816696167,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.9212,
      "step": 153
    },
    {
      "epoch": 0.010463555910380323,
      "grad_norm": 1.3640353679656982,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.7581,
      "step": 154
    },
    {
      "epoch": 0.010531501078629546,
      "grad_norm": 1.6870373487472534,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 1.0651,
      "step": 155
    },
    {
      "epoch": 0.01059944624687877,
      "grad_norm": 1.4182769060134888,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.9524,
      "step": 156
    },
    {
      "epoch": 0.010667391415127991,
      "grad_norm": 1.4355391263961792,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.883,
      "step": 157
    },
    {
      "epoch": 0.010735336583377214,
      "grad_norm": 1.4979115724563599,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.764,
      "step": 158
    },
    {
      "epoch": 0.010803281751626438,
      "grad_norm": 1.66521418094635,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.9249,
      "step": 159
    },
    {
      "epoch": 0.01087122691987566,
      "grad_norm": 1.7074682712554932,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 1.1031,
      "step": 160
    },
    {
      "epoch": 0.010939172088124883,
      "grad_norm": 1.4595298767089844,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.8422,
      "step": 161
    },
    {
      "epoch": 0.011007117256374106,
      "grad_norm": 1.4486116170883179,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.9168,
      "step": 162
    },
    {
      "epoch": 0.01107506242462333,
      "grad_norm": 1.4176596403121948,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.9538,
      "step": 163
    },
    {
      "epoch": 0.011143007592872551,
      "grad_norm": 1.464324951171875,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.9701,
      "step": 164
    },
    {
      "epoch": 0.011210952761121775,
      "grad_norm": 1.956637978553772,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.925,
      "step": 165
    },
    {
      "epoch": 0.011278897929370998,
      "grad_norm": 1.501102089881897,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.9441,
      "step": 166
    },
    {
      "epoch": 0.01134684309762022,
      "grad_norm": 1.441935420036316,
      "learning_rate": 7.260364370723044e-06,
      "loss": 1.0934,
      "step": 167
    },
    {
      "epoch": 0.011414788265869443,
      "grad_norm": 1.4707292318344116,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.9379,
      "step": 168
    },
    {
      "epoch": 0.011482733434118667,
      "grad_norm": 1.4851819276809692,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.8115,
      "step": 169
    },
    {
      "epoch": 0.01155067860236789,
      "grad_norm": 1.2829588651657104,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.8203,
      "step": 170
    },
    {
      "epoch": 0.011618623770617112,
      "grad_norm": 1.4356300830841064,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 1.0537,
      "step": 171
    },
    {
      "epoch": 0.011686568938866335,
      "grad_norm": 1.4382599592208862,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.9037,
      "step": 172
    },
    {
      "epoch": 0.011754514107115558,
      "grad_norm": 1.5364494323730469,
      "learning_rate": 4.900438493352055e-06,
      "loss": 1.0518,
      "step": 173
    },
    {
      "epoch": 0.01182245927536478,
      "grad_norm": 1.2952923774719238,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.8675,
      "step": 174
    },
    {
      "epoch": 0.011890404443614003,
      "grad_norm": 1.2653728723526,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.7303,
      "step": 175
    },
    {
      "epoch": 0.011958349611863227,
      "grad_norm": 1.283709168434143,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.7082,
      "step": 176
    },
    {
      "epoch": 0.012026294780112448,
      "grad_norm": 1.5606532096862793,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 0.8615,
      "step": 177
    },
    {
      "epoch": 0.012094239948361672,
      "grad_norm": 1.4246398210525513,
      "learning_rate": 3.271776770026963e-06,
      "loss": 1.0003,
      "step": 178
    },
    {
      "epoch": 0.012162185116610895,
      "grad_norm": 1.2025375366210938,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 0.7776,
      "step": 179
    },
    {
      "epoch": 0.012230130284860119,
      "grad_norm": 1.3554410934448242,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.8114,
      "step": 180
    },
    {
      "epoch": 0.01229807545310934,
      "grad_norm": 1.2795648574829102,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.7173,
      "step": 181
    },
    {
      "epoch": 0.012366020621358564,
      "grad_norm": 1.4506196975708008,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.811,
      "step": 182
    },
    {
      "epoch": 0.012433965789607787,
      "grad_norm": 1.4982455968856812,
      "learning_rate": 1.962316193157593e-06,
      "loss": 1.0242,
      "step": 183
    },
    {
      "epoch": 0.012501910957857009,
      "grad_norm": 1.2412910461425781,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.73,
      "step": 184
    },
    {
      "epoch": 0.012569856126106232,
      "grad_norm": 1.4137027263641357,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.8728,
      "step": 185
    },
    {
      "epoch": 0.012637801294355456,
      "grad_norm": 1.4309476613998413,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.8344,
      "step": 186
    },
    {
      "epoch": 0.012705746462604677,
      "grad_norm": 1.4072825908660889,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 0.9035,
      "step": 187
    },
    {
      "epoch": 0.0127736916308539,
      "grad_norm": 1.2486094236373901,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.6874,
      "step": 188
    },
    {
      "epoch": 0.012841636799103124,
      "grad_norm": 1.4602055549621582,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.9475,
      "step": 189
    },
    {
      "epoch": 0.012909581967352347,
      "grad_norm": 1.4108811616897583,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.7717,
      "step": 190
    },
    {
      "epoch": 0.012977527135601569,
      "grad_norm": 1.7418683767318726,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.9041,
      "step": 191
    },
    {
      "epoch": 0.013045472303850792,
      "grad_norm": 1.4060115814208984,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.8397,
      "step": 192
    },
    {
      "epoch": 0.013113417472100016,
      "grad_norm": 1.4120477437973022,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.7495,
      "step": 193
    },
    {
      "epoch": 0.013181362640349237,
      "grad_norm": 1.9239022731781006,
      "learning_rate": 2.458548727494292e-07,
      "loss": 1.0251,
      "step": 194
    },
    {
      "epoch": 0.01324930780859846,
      "grad_norm": 1.7821704149246216,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.8074,
      "step": 195
    },
    {
      "epoch": 0.013317252976847684,
      "grad_norm": 1.6790579557418823,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 1.1145,
      "step": 196
    },
    {
      "epoch": 0.013385198145096908,
      "grad_norm": 1.6022193431854248,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.8145,
      "step": 197
    },
    {
      "epoch": 0.01345314331334613,
      "grad_norm": 1.5636569261550903,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.8642,
      "step": 198
    },
    {
      "epoch": 0.013521088481595353,
      "grad_norm": 1.733120083808899,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.8833,
      "step": 199
    },
    {
      "epoch": 0.013589033649844576,
      "grad_norm": 1.4912912845611572,
      "learning_rate": 0.0,
      "loss": 0.6436,
      "step": 200
    },
    {
      "epoch": 0.013589033649844576,
      "eval_loss": 0.8779851794242859,
      "eval_runtime": 745.4453,
      "eval_samples_per_second": 33.253,
      "eval_steps_per_second": 8.313,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.531341651181568e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}