{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 1498,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0033377837116154874,
      "grad_norm": 10.97334621037521,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 1.0976,
      "step": 5
    },
    {
      "epoch": 0.006675567423230975,
      "grad_norm": 8.500612119645204,
      "learning_rate": 3e-06,
      "loss": 1.0533,
      "step": 10
    },
    {
      "epoch": 0.010013351134846462,
      "grad_norm": 4.4978733433398705,
      "learning_rate": 4.666666666666667e-06,
      "loss": 0.9037,
      "step": 15
    },
    {
      "epoch": 0.01335113484646195,
      "grad_norm": 3.8887423585372596,
      "learning_rate": 6.333333333333334e-06,
      "loss": 0.7853,
      "step": 20
    },
    {
      "epoch": 0.016688918558077435,
      "grad_norm": 3.1870823314914474,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.774,
      "step": 25
    },
    {
      "epoch": 0.020026702269692925,
      "grad_norm": 3.6334777762827684,
      "learning_rate": 9.666666666666667e-06,
      "loss": 0.7773,
      "step": 30
    },
    {
      "epoch": 0.02336448598130841,
      "grad_norm": 3.683322604774294,
      "learning_rate": 1.1333333333333334e-05,
      "loss": 0.7457,
      "step": 35
    },
    {
      "epoch": 0.0267022696929239,
      "grad_norm": 3.6697978407247605,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.7103,
      "step": 40
    },
    {
      "epoch": 0.030040053404539385,
      "grad_norm": 3.651275266228758,
      "learning_rate": 1.4666666666666668e-05,
      "loss": 0.7227,
      "step": 45
    },
    {
      "epoch": 0.03337783711615487,
      "grad_norm": 3.8445471248297265,
      "learning_rate": 1.6333333333333335e-05,
      "loss": 0.6611,
      "step": 50
    },
    {
      "epoch": 0.036715620827770364,
      "grad_norm": 3.5025746500731545,
      "learning_rate": 1.8e-05,
      "loss": 0.6182,
      "step": 55
    },
    {
      "epoch": 0.04005340453938585,
      "grad_norm": 3.8698798018604577,
      "learning_rate": 1.9666666666666666e-05,
      "loss": 0.6551,
      "step": 60
    },
    {
      "epoch": 0.043391188251001335,
      "grad_norm": 2.990673727539358,
      "learning_rate": 2.1333333333333335e-05,
      "loss": 0.6866,
      "step": 65
    },
    {
      "epoch": 0.04672897196261682,
      "grad_norm": 3.2866308072265213,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 0.6887,
      "step": 70
    },
    {
      "epoch": 0.050066755674232306,
      "grad_norm": 3.271721003686755,
      "learning_rate": 2.466666666666667e-05,
      "loss": 0.7327,
      "step": 75
    },
    {
      "epoch": 0.0534045393858478,
      "grad_norm": 3.0753677314727743,
      "learning_rate": 2.633333333333333e-05,
      "loss": 0.7003,
      "step": 80
    },
    {
      "epoch": 0.056742323097463285,
      "grad_norm": 2.6258441723789607,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.7144,
      "step": 85
    },
    {
      "epoch": 0.06008010680907877,
      "grad_norm": 2.434906123559183,
      "learning_rate": 2.9666666666666672e-05,
      "loss": 0.704,
      "step": 90
    },
    {
      "epoch": 0.06341789052069426,
      "grad_norm": 2.760855540008962,
      "learning_rate": 3.1333333333333334e-05,
      "loss": 0.7329,
      "step": 95
    },
    {
      "epoch": 0.06675567423230974,
      "grad_norm": 2.215504245536271,
      "learning_rate": 3.3e-05,
      "loss": 0.7367,
      "step": 100
    },
    {
      "epoch": 0.07009345794392523,
      "grad_norm": 2.6569341544736713,
      "learning_rate": 3.466666666666667e-05,
      "loss": 0.7713,
      "step": 105
    },
    {
      "epoch": 0.07343124165554073,
      "grad_norm": 2.6507368382475973,
      "learning_rate": 3.633333333333333e-05,
      "loss": 0.7772,
      "step": 110
    },
    {
      "epoch": 0.07676902536715621,
      "grad_norm": 2.1348618645661483,
      "learning_rate": 3.8e-05,
      "loss": 0.7712,
      "step": 115
    },
    {
      "epoch": 0.0801068090787717,
      "grad_norm": 2.264768791536783,
      "learning_rate": 3.966666666666667e-05,
      "loss": 0.7594,
      "step": 120
    },
    {
      "epoch": 0.08344459279038718,
      "grad_norm": 1.9771816174965278,
      "learning_rate": 4.133333333333333e-05,
      "loss": 0.7945,
      "step": 125
    },
    {
      "epoch": 0.08678237650200267,
      "grad_norm": 1.8584709556275458,
      "learning_rate": 4.3e-05,
      "loss": 0.7918,
      "step": 130
    },
    {
      "epoch": 0.09012016021361816,
      "grad_norm": 1.6443791716346257,
      "learning_rate": 4.466666666666667e-05,
      "loss": 0.7961,
      "step": 135
    },
    {
      "epoch": 0.09345794392523364,
      "grad_norm": 1.6647164088912758,
      "learning_rate": 4.633333333333333e-05,
      "loss": 0.8114,
      "step": 140
    },
    {
      "epoch": 0.09679572763684913,
      "grad_norm": 1.9000184800356008,
      "learning_rate": 4.8e-05,
      "loss": 0.8218,
      "step": 145
    },
    {
      "epoch": 0.10013351134846461,
      "grad_norm": 1.5342772082491383,
      "learning_rate": 4.966666666666667e-05,
      "loss": 0.8185,
      "step": 150
    },
    {
      "epoch": 0.10347129506008011,
      "grad_norm": 1.4750796923574772,
      "learning_rate": 4.9851632047477745e-05,
      "loss": 0.8223,
      "step": 155
    },
    {
      "epoch": 0.1068090787716956,
      "grad_norm": 1.6148204398582195,
      "learning_rate": 4.966617210682493e-05,
      "loss": 0.8303,
      "step": 160
    },
    {
      "epoch": 0.11014686248331108,
      "grad_norm": 1.4390159182334255,
      "learning_rate": 4.948071216617211e-05,
      "loss": 0.7991,
      "step": 165
    },
    {
      "epoch": 0.11348464619492657,
      "grad_norm": 1.2663492608255318,
      "learning_rate": 4.929525222551929e-05,
      "loss": 0.8523,
      "step": 170
    },
    {
      "epoch": 0.11682242990654206,
      "grad_norm": 1.5497168860322745,
      "learning_rate": 4.910979228486647e-05,
      "loss": 0.8384,
      "step": 175
    },
    {
      "epoch": 0.12016021361815754,
      "grad_norm": 1.3218119424151125,
      "learning_rate": 4.8924332344213654e-05,
      "loss": 0.8334,
      "step": 180
    },
    {
      "epoch": 0.12349799732977303,
      "grad_norm": 1.3314085264665803,
      "learning_rate": 4.873887240356083e-05,
      "loss": 0.8775,
      "step": 185
    },
    {
      "epoch": 0.1268357810413885,
      "grad_norm": 1.417575113114604,
      "learning_rate": 4.855341246290801e-05,
      "loss": 0.8604,
      "step": 190
    },
    {
      "epoch": 0.130173564753004,
      "grad_norm": 1.366705643461715,
      "learning_rate": 4.8367952522255196e-05,
      "loss": 0.8578,
      "step": 195
    },
    {
      "epoch": 0.13351134846461948,
      "grad_norm": 1.3085988961094133,
      "learning_rate": 4.818249258160238e-05,
      "loss": 0.8493,
      "step": 200
    },
    {
      "epoch": 0.13684913217623498,
      "grad_norm": 1.3664654247475687,
      "learning_rate": 4.7997032640949556e-05,
      "loss": 0.8739,
      "step": 205
    },
    {
      "epoch": 0.14018691588785046,
      "grad_norm": 1.2448228793197444,
      "learning_rate": 4.781157270029674e-05,
      "loss": 0.8758,
      "step": 210
    },
    {
      "epoch": 0.14352469959946595,
      "grad_norm": 1.2166707854427619,
      "learning_rate": 4.762611275964392e-05,
      "loss": 0.8621,
      "step": 215
    },
    {
      "epoch": 0.14686248331108145,
      "grad_norm": 1.2528234662317728,
      "learning_rate": 4.74406528189911e-05,
      "loss": 0.8358,
      "step": 220
    },
    {
      "epoch": 0.15020026702269693,
      "grad_norm": 1.2078820039150766,
      "learning_rate": 4.725519287833828e-05,
      "loss": 0.8527,
      "step": 225
    },
    {
      "epoch": 0.15353805073431243,
      "grad_norm": 1.1953586214155212,
      "learning_rate": 4.7069732937685464e-05,
      "loss": 0.86,
      "step": 230
    },
    {
      "epoch": 0.1568758344459279,
      "grad_norm": 1.239697699729331,
      "learning_rate": 4.688427299703264e-05,
      "loss": 0.8512,
      "step": 235
    },
    {
      "epoch": 0.1602136181575434,
      "grad_norm": 1.0943965020451794,
      "learning_rate": 4.6698813056379824e-05,
      "loss": 0.8485,
      "step": 240
    },
    {
      "epoch": 0.16355140186915887,
      "grad_norm": 1.1753697981159985,
      "learning_rate": 4.651335311572701e-05,
      "loss": 0.8574,
      "step": 245
    },
    {
      "epoch": 0.16688918558077437,
      "grad_norm": 1.2273163170418067,
      "learning_rate": 4.632789317507419e-05,
      "loss": 0.8755,
      "step": 250
    },
    {
      "epoch": 0.17022696929238984,
      "grad_norm": 1.1408298234921244,
      "learning_rate": 4.6142433234421366e-05,
      "loss": 0.8656,
      "step": 255
    },
    {
      "epoch": 0.17356475300400534,
      "grad_norm": 1.099138875783624,
      "learning_rate": 4.595697329376854e-05,
      "loss": 0.8641,
      "step": 260
    },
    {
      "epoch": 0.17690253671562084,
      "grad_norm": 1.1726455447900384,
      "learning_rate": 4.577151335311573e-05,
      "loss": 0.8428,
      "step": 265
    },
    {
      "epoch": 0.1802403204272363,
      "grad_norm": 1.1238710518885906,
      "learning_rate": 4.558605341246291e-05,
      "loss": 0.8564,
      "step": 270
    },
    {
      "epoch": 0.1835781041388518,
      "grad_norm": 1.2209709343561501,
      "learning_rate": 4.540059347181009e-05,
      "loss": 0.8841,
      "step": 275
    },
    {
      "epoch": 0.18691588785046728,
      "grad_norm": 1.0719606532900603,
      "learning_rate": 4.5215133531157275e-05,
      "loss": 0.8564,
      "step": 280
    },
    {
      "epoch": 0.19025367156208278,
      "grad_norm": 1.1632077631864237,
      "learning_rate": 4.502967359050445e-05,
      "loss": 0.8336,
      "step": 285
    },
    {
      "epoch": 0.19359145527369825,
      "grad_norm": 1.0912246571194697,
      "learning_rate": 4.4844213649851635e-05,
      "loss": 0.8386,
      "step": 290
    },
    {
      "epoch": 0.19692923898531375,
      "grad_norm": 1.182192263363281,
      "learning_rate": 4.465875370919881e-05,
      "loss": 0.8725,
      "step": 295
    },
    {
      "epoch": 0.20026702269692923,
      "grad_norm": 1.1652841802413654,
      "learning_rate": 4.4473293768546e-05,
      "loss": 0.8673,
      "step": 300
    },
    {
      "epoch": 0.20360480640854473,
      "grad_norm": 1.006954327768831,
      "learning_rate": 4.428783382789318e-05,
      "loss": 0.8428,
      "step": 305
    },
    {
      "epoch": 0.20694259012016022,
      "grad_norm": 1.043615772924013,
      "learning_rate": 4.4102373887240354e-05,
      "loss": 0.8826,
      "step": 310
    },
    {
      "epoch": 0.2102803738317757,
      "grad_norm": 1.0218351388644316,
      "learning_rate": 4.391691394658754e-05,
      "loss": 0.8604,
      "step": 315
    },
    {
      "epoch": 0.2136181575433912,
      "grad_norm": 1.093123947434233,
      "learning_rate": 4.373145400593472e-05,
      "loss": 0.8471,
      "step": 320
    },
    {
      "epoch": 0.21695594125500667,
      "grad_norm": 1.0437185361786059,
      "learning_rate": 4.35459940652819e-05,
      "loss": 0.8365,
      "step": 325
    },
    {
      "epoch": 0.22029372496662217,
      "grad_norm": 1.1728538235708217,
      "learning_rate": 4.336053412462908e-05,
      "loss": 0.8456,
      "step": 330
    },
    {
      "epoch": 0.22363150867823764,
      "grad_norm": 1.072793065927316,
      "learning_rate": 4.317507418397626e-05,
      "loss": 0.8574,
      "step": 335
    },
    {
      "epoch": 0.22696929238985314,
      "grad_norm": 0.9434393974539138,
      "learning_rate": 4.2989614243323446e-05,
      "loss": 0.8342,
      "step": 340
    },
    {
      "epoch": 0.23030707610146864,
      "grad_norm": 1.0832629194902035,
      "learning_rate": 4.280415430267062e-05,
      "loss": 0.8509,
      "step": 345
    },
    {
      "epoch": 0.2336448598130841,
      "grad_norm": 0.9763109475541231,
      "learning_rate": 4.2618694362017805e-05,
      "loss": 0.8515,
      "step": 350
    },
    {
      "epoch": 0.2369826435246996,
      "grad_norm": 0.9622690418923676,
      "learning_rate": 4.243323442136499e-05,
      "loss": 0.8451,
      "step": 355
    },
    {
      "epoch": 0.24032042723631508,
      "grad_norm": 1.0311536354503212,
      "learning_rate": 4.2247774480712165e-05,
      "loss": 0.8793,
      "step": 360
    },
    {
      "epoch": 0.24365821094793058,
      "grad_norm": 1.0616057184675154,
      "learning_rate": 4.206231454005935e-05,
      "loss": 0.8496,
      "step": 365
    },
    {
      "epoch": 0.24699599465954605,
      "grad_norm": 0.9694776849343971,
      "learning_rate": 4.187685459940653e-05,
      "loss": 0.8276,
      "step": 370
    },
    {
      "epoch": 0.25033377837116155,
      "grad_norm": 1.0669771488195197,
      "learning_rate": 4.1691394658753714e-05,
      "loss": 0.8608,
      "step": 375
    },
    {
      "epoch": 0.253671562082777,
      "grad_norm": 1.0330982860266757,
      "learning_rate": 4.150593471810089e-05,
      "loss": 0.8626,
      "step": 380
    },
    {
      "epoch": 0.2570093457943925,
      "grad_norm": 1.0894982304893939,
      "learning_rate": 4.132047477744807e-05,
      "loss": 0.8456,
      "step": 385
    },
    {
      "epoch": 0.260347129506008,
      "grad_norm": 1.0233378411857879,
      "learning_rate": 4.1135014836795256e-05,
      "loss": 0.858,
      "step": 390
    },
    {
      "epoch": 0.2636849132176235,
      "grad_norm": 0.9532755270759551,
      "learning_rate": 4.094955489614243e-05,
      "loss": 0.8325,
      "step": 395
    },
    {
      "epoch": 0.26702269692923897,
      "grad_norm": 1.012705355808147,
      "learning_rate": 4.0764094955489616e-05,
      "loss": 0.8603,
      "step": 400
    },
    {
      "epoch": 0.2703604806408545,
      "grad_norm": 1.0304787118053764,
      "learning_rate": 4.05786350148368e-05,
      "loss": 0.8481,
      "step": 405
    },
    {
      "epoch": 0.27369826435246997,
      "grad_norm": 1.0003080869140883,
      "learning_rate": 4.039317507418398e-05,
      "loss": 0.841,
      "step": 410
    },
    {
      "epoch": 0.27703604806408544,
      "grad_norm": 1.0009426776633654,
      "learning_rate": 4.020771513353116e-05,
      "loss": 0.8504,
      "step": 415
    },
    {
      "epoch": 0.2803738317757009,
      "grad_norm": 0.9644210719992499,
      "learning_rate": 4.002225519287834e-05,
      "loss": 0.8481,
      "step": 420
    },
    {
      "epoch": 0.28371161548731644,
      "grad_norm": 1.0494436578225004,
      "learning_rate": 3.9836795252225525e-05,
      "loss": 0.8354,
      "step": 425
    },
    {
      "epoch": 0.2870493991989319,
      "grad_norm": 0.8887585557590956,
      "learning_rate": 3.96513353115727e-05,
      "loss": 0.83,
      "step": 430
    },
    {
      "epoch": 0.2903871829105474,
      "grad_norm": 0.9747027542446707,
      "learning_rate": 3.9465875370919884e-05,
      "loss": 0.8307,
      "step": 435
    },
    {
      "epoch": 0.2937249666221629,
      "grad_norm": 0.9383108633240661,
      "learning_rate": 3.928041543026707e-05,
      "loss": 0.8135,
      "step": 440
    },
    {
      "epoch": 0.2970627503337784,
      "grad_norm": 1.0410990959669617,
      "learning_rate": 3.9094955489614244e-05,
      "loss": 0.8485,
      "step": 445
    },
    {
      "epoch": 0.30040053404539385,
      "grad_norm": 0.9780902917654535,
      "learning_rate": 3.890949554896143e-05,
      "loss": 0.8196,
      "step": 450
    },
    {
      "epoch": 0.3037383177570093,
      "grad_norm": 0.9442982752168075,
      "learning_rate": 3.87240356083086e-05,
      "loss": 0.808,
      "step": 455
    },
    {
      "epoch": 0.30707610146862485,
      "grad_norm": 1.0040732428090156,
      "learning_rate": 3.853857566765579e-05,
      "loss": 0.8478,
      "step": 460
    },
    {
      "epoch": 0.3104138851802403,
      "grad_norm": 0.9957954242378592,
      "learning_rate": 3.835311572700297e-05,
      "loss": 0.8243,
      "step": 465
    },
    {
      "epoch": 0.3137516688918558,
      "grad_norm": 0.9906243125042739,
      "learning_rate": 3.8167655786350146e-05,
      "loss": 0.8198,
      "step": 470
    },
    {
      "epoch": 0.3170894526034713,
      "grad_norm": 0.9245770524956366,
      "learning_rate": 3.7982195845697336e-05,
      "loss": 0.8225,
      "step": 475
    },
    {
      "epoch": 0.3204272363150868,
      "grad_norm": 0.9689880972401121,
      "learning_rate": 3.779673590504451e-05,
      "loss": 0.8081,
      "step": 480
    },
    {
      "epoch": 0.32376502002670227,
      "grad_norm": 0.9050315548245393,
      "learning_rate": 3.7611275964391695e-05,
      "loss": 0.8257,
      "step": 485
    },
    {
      "epoch": 0.32710280373831774,
      "grad_norm": 0.965523047639,
      "learning_rate": 3.742581602373887e-05,
      "loss": 0.8351,
      "step": 490
    },
    {
      "epoch": 0.33044058744993327,
      "grad_norm": 1.0138619406917988,
      "learning_rate": 3.7240356083086054e-05,
      "loss": 0.8297,
      "step": 495
    },
    {
      "epoch": 0.33377837116154874,
      "grad_norm": 0.9226993749632075,
      "learning_rate": 3.705489614243324e-05,
      "loss": 0.822,
      "step": 500
    },
    {
      "epoch": 0.3371161548731642,
      "grad_norm": 0.932421956217793,
      "learning_rate": 3.6869436201780414e-05,
      "loss": 0.8131,
      "step": 505
    },
    {
      "epoch": 0.3404539385847797,
      "grad_norm": 0.8929781381117078,
      "learning_rate": 3.6683976261127604e-05,
      "loss": 0.8144,
      "step": 510
    },
    {
      "epoch": 0.3437917222963952,
      "grad_norm": 0.922998838382151,
      "learning_rate": 3.649851632047478e-05,
      "loss": 0.8624,
      "step": 515
    },
    {
      "epoch": 0.3471295060080107,
      "grad_norm": 0.93469331823402,
      "learning_rate": 3.6313056379821956e-05,
      "loss": 0.8259,
      "step": 520
    },
    {
      "epoch": 0.35046728971962615,
      "grad_norm": 1.0259483980065804,
      "learning_rate": 3.612759643916914e-05,
      "loss": 0.85,
      "step": 525
    },
    {
      "epoch": 0.3538050734312417,
      "grad_norm": 0.9757464996869175,
      "learning_rate": 3.594213649851632e-05,
      "loss": 0.8322,
      "step": 530
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 1.0326434851152306,
      "learning_rate": 3.5756676557863506e-05,
      "loss": 0.8152,
      "step": 535
    },
    {
      "epoch": 0.3604806408544726,
      "grad_norm": 0.8969653625459288,
      "learning_rate": 3.557121661721068e-05,
      "loss": 0.8342,
      "step": 540
    },
    {
      "epoch": 0.3638184245660881,
      "grad_norm": 0.9685090624506036,
      "learning_rate": 3.5385756676557865e-05,
      "loss": 0.8454,
      "step": 545
    },
    {
      "epoch": 0.3671562082777036,
      "grad_norm": 0.9464787707831517,
      "learning_rate": 3.520029673590505e-05,
      "loss": 0.8144,
      "step": 550
    },
    {
      "epoch": 0.3704939919893191,
      "grad_norm": 0.9715120332083621,
      "learning_rate": 3.5014836795252225e-05,
      "loss": 0.8075,
      "step": 555
    },
    {
      "epoch": 0.37383177570093457,
      "grad_norm": 1.0181655310980833,
      "learning_rate": 3.482937685459941e-05,
      "loss": 0.8433,
      "step": 560
    },
    {
      "epoch": 0.3771695594125501,
      "grad_norm": 1.0013772700433445,
      "learning_rate": 3.464391691394659e-05,
      "loss": 0.8253,
      "step": 565
    },
    {
      "epoch": 0.38050734312416556,
      "grad_norm": 0.9482215787610626,
      "learning_rate": 3.445845697329377e-05,
      "loss": 0.8195,
      "step": 570
    },
    {
      "epoch": 0.38384512683578104,
      "grad_norm": 1.0461820886125337,
      "learning_rate": 3.427299703264095e-05,
      "loss": 0.831,
      "step": 575
    },
    {
      "epoch": 0.3871829105473965,
      "grad_norm": 0.9198239920283778,
      "learning_rate": 3.4087537091988134e-05,
      "loss": 0.8152,
      "step": 580
    },
    {
      "epoch": 0.39052069425901204,
      "grad_norm": 0.9782331163351092,
      "learning_rate": 3.390207715133532e-05,
      "loss": 0.8154,
      "step": 585
    },
    {
      "epoch": 0.3938584779706275,
      "grad_norm": 0.9186397229393198,
      "learning_rate": 3.371661721068249e-05,
      "loss": 0.8153,
      "step": 590
    },
    {
      "epoch": 0.397196261682243,
      "grad_norm": 0.9337443617921134,
      "learning_rate": 3.3531157270029676e-05,
      "loss": 0.8233,
      "step": 595
    },
    {
      "epoch": 0.40053404539385845,
      "grad_norm": 0.9434322651580768,
      "learning_rate": 3.334569732937686e-05,
      "loss": 0.8345,
      "step": 600
    },
    {
      "epoch": 0.403871829105474,
      "grad_norm": 1.0512846063850414,
      "learning_rate": 3.3160237388724036e-05,
      "loss": 0.8173,
      "step": 605
    },
    {
      "epoch": 0.40720961281708945,
      "grad_norm": 0.9350959223867034,
      "learning_rate": 3.297477744807122e-05,
      "loss": 0.8372,
      "step": 610
    },
    {
      "epoch": 0.4105473965287049,
      "grad_norm": 0.9197353611822743,
      "learning_rate": 3.27893175074184e-05,
      "loss": 0.8215,
      "step": 615
    },
    {
      "epoch": 0.41388518024032045,
      "grad_norm": 0.8518070420704498,
      "learning_rate": 3.260385756676558e-05,
      "loss": 0.7951,
      "step": 620
    },
    {
      "epoch": 0.4172229639519359,
      "grad_norm": 0.9858909592901012,
      "learning_rate": 3.241839762611276e-05,
      "loss": 0.8035,
      "step": 625
    },
    {
      "epoch": 0.4205607476635514,
      "grad_norm": 1.071276470614738,
      "learning_rate": 3.223293768545994e-05,
      "loss": 0.8121,
      "step": 630
    },
    {
      "epoch": 0.42389853137516686,
      "grad_norm": 0.9226349965551451,
      "learning_rate": 3.204747774480713e-05,
      "loss": 0.8024,
      "step": 635
    },
    {
      "epoch": 0.4272363150867824,
      "grad_norm": 0.9911335494782234,
      "learning_rate": 3.1862017804154304e-05,
      "loss": 0.7998,
      "step": 640
    },
    {
      "epoch": 0.43057409879839786,
      "grad_norm": 0.857226373613729,
      "learning_rate": 3.167655786350148e-05,
      "loss": 0.7985,
      "step": 645
    },
    {
      "epoch": 0.43391188251001334,
      "grad_norm": 0.9012240464805917,
      "learning_rate": 3.149109792284867e-05,
      "loss": 0.8109,
      "step": 650
    },
    {
      "epoch": 0.43724966622162886,
      "grad_norm": 0.9124837740946565,
      "learning_rate": 3.1305637982195846e-05,
      "loss": 0.8015,
      "step": 655
    },
    {
      "epoch": 0.44058744993324434,
      "grad_norm": 0.9907278141668688,
      "learning_rate": 3.112017804154303e-05,
      "loss": 0.8102,
      "step": 660
    },
    {
      "epoch": 0.4439252336448598,
      "grad_norm": 0.9447867252541866,
      "learning_rate": 3.0934718100890206e-05,
      "loss": 0.8308,
      "step": 665
    },
    {
      "epoch": 0.4472630173564753,
      "grad_norm": 0.9514834392779774,
      "learning_rate": 3.074925816023739e-05,
      "loss": 0.8108,
      "step": 670
    },
    {
      "epoch": 0.4506008010680908,
      "grad_norm": 0.8898801356986638,
      "learning_rate": 3.056379821958457e-05,
      "loss": 0.7952,
      "step": 675
    },
    {
      "epoch": 0.4539385847797063,
      "grad_norm": 0.9121421167479317,
      "learning_rate": 3.0378338278931752e-05,
      "loss": 0.7766,
      "step": 680
    },
    {
      "epoch": 0.45727636849132175,
      "grad_norm": 0.9206580766916015,
      "learning_rate": 3.0192878338278935e-05,
      "loss": 0.7976,
      "step": 685
    },
    {
      "epoch": 0.4606141522029373,
      "grad_norm": 0.8875003615985043,
      "learning_rate": 3.0007418397626115e-05,
      "loss": 0.7965,
      "step": 690
    },
    {
      "epoch": 0.46395193591455275,
      "grad_norm": 1.0057518919464419,
      "learning_rate": 2.9821958456973298e-05,
      "loss": 0.7745,
      "step": 695
    },
    {
      "epoch": 0.4672897196261682,
      "grad_norm": 0.9890615318492613,
      "learning_rate": 2.9636498516320477e-05,
      "loss": 0.8021,
      "step": 700
    },
    {
      "epoch": 0.4706275033377837,
      "grad_norm": 0.9958806046763854,
      "learning_rate": 2.9451038575667654e-05,
      "loss": 0.7948,
      "step": 705
    },
    {
      "epoch": 0.4739652870493992,
      "grad_norm": 0.9427315789994021,
      "learning_rate": 2.926557863501484e-05,
      "loss": 0.7995,
      "step": 710
    },
    {
      "epoch": 0.4773030707610147,
      "grad_norm": 0.9054405934645217,
      "learning_rate": 2.908011869436202e-05,
      "loss": 0.7941,
      "step": 715
    },
    {
      "epoch": 0.48064085447263016,
      "grad_norm": 0.9373946350999136,
      "learning_rate": 2.8894658753709203e-05,
      "loss": 0.8178,
      "step": 720
    },
    {
      "epoch": 0.48397863818424564,
      "grad_norm": 0.9693149989780067,
      "learning_rate": 2.8709198813056383e-05,
      "loss": 0.8044,
      "step": 725
    },
    {
      "epoch": 0.48731642189586116,
      "grad_norm": 0.8575646876326481,
      "learning_rate": 2.852373887240356e-05,
      "loss": 0.789,
      "step": 730
    },
    {
      "epoch": 0.49065420560747663,
      "grad_norm": 0.986208895766066,
      "learning_rate": 2.8338278931750746e-05,
      "loss": 0.8155,
      "step": 735
    },
    {
      "epoch": 0.4939919893190921,
      "grad_norm": 0.9731059895113887,
      "learning_rate": 2.8152818991097922e-05,
      "loss": 0.8092,
      "step": 740
    },
    {
      "epoch": 0.49732977303070763,
      "grad_norm": 1.0244020266746006,
      "learning_rate": 2.796735905044511e-05,
      "loss": 0.8086,
      "step": 745
    },
    {
      "epoch": 0.5006675567423231,
      "grad_norm": 0.8755711588079153,
      "learning_rate": 2.7781899109792285e-05,
      "loss": 0.7978,
      "step": 750
    },
    {
      "epoch": 0.5040053404539386,
      "grad_norm": 0.8857975744161016,
      "learning_rate": 2.7596439169139465e-05,
      "loss": 0.7945,
      "step": 755
    },
    {
      "epoch": 0.507343124165554,
      "grad_norm": 1.0437729771562312,
      "learning_rate": 2.741097922848665e-05,
      "loss": 0.8,
      "step": 760
    },
    {
      "epoch": 0.5106809078771696,
      "grad_norm": 0.8938452774095116,
      "learning_rate": 2.7225519287833828e-05,
      "loss": 0.7919,
      "step": 765
    },
    {
      "epoch": 0.514018691588785,
      "grad_norm": 0.9507910351515566,
      "learning_rate": 2.7040059347181014e-05,
      "loss": 0.811,
      "step": 770
    },
    {
      "epoch": 0.5173564753004005,
      "grad_norm": 0.9446476391640979,
      "learning_rate": 2.685459940652819e-05,
      "loss": 0.812,
      "step": 775
    },
    {
      "epoch": 0.520694259012016,
      "grad_norm": 0.8939815937066375,
      "learning_rate": 2.666913946587537e-05,
      "loss": 0.7968,
      "step": 780
    },
    {
      "epoch": 0.5240320427236315,
      "grad_norm": 0.9078803372635648,
      "learning_rate": 2.6483679525222553e-05,
      "loss": 0.816,
      "step": 785
    },
    {
      "epoch": 0.527369826435247,
      "grad_norm": 0.8194365993553059,
      "learning_rate": 2.6298219584569733e-05,
      "loss": 0.7861,
      "step": 790
    },
    {
      "epoch": 0.5307076101468625,
      "grad_norm": 0.8408501195751673,
      "learning_rate": 2.6112759643916916e-05,
      "loss": 0.7743,
      "step": 795
    },
    {
      "epoch": 0.5340453938584779,
      "grad_norm": 0.8531884984260966,
      "learning_rate": 2.5927299703264096e-05,
      "loss": 0.8047,
      "step": 800
    },
    {
      "epoch": 0.5373831775700935,
      "grad_norm": 0.8791442187279712,
      "learning_rate": 2.5741839762611276e-05,
      "loss": 0.7854,
      "step": 805
    },
    {
      "epoch": 0.540720961281709,
      "grad_norm": 0.9753162027608423,
      "learning_rate": 2.555637982195846e-05,
      "loss": 0.8098,
      "step": 810
    },
    {
      "epoch": 0.5440587449933244,
      "grad_norm": 0.8625073065074,
      "learning_rate": 2.537091988130564e-05,
      "loss": 0.7967,
      "step": 815
    },
    {
      "epoch": 0.5473965287049399,
      "grad_norm": 0.9742653975215142,
      "learning_rate": 2.518545994065282e-05,
      "loss": 0.7768,
      "step": 820
    },
    {
      "epoch": 0.5507343124165555,
      "grad_norm": 0.8892913090889087,
      "learning_rate": 2.5e-05,
      "loss": 0.7603,
      "step": 825
    },
    {
      "epoch": 0.5540720961281709,
      "grad_norm": 0.8685382218468735,
      "learning_rate": 2.4814540059347184e-05,
      "loss": 0.8061,
      "step": 830
    },
    {
      "epoch": 0.5574098798397864,
      "grad_norm": 0.8609646194613518,
      "learning_rate": 2.4629080118694364e-05,
      "loss": 0.8238,
      "step": 835
    },
    {
      "epoch": 0.5607476635514018,
      "grad_norm": 0.9013458211054559,
      "learning_rate": 2.4443620178041544e-05,
      "loss": 0.7874,
      "step": 840
    },
    {
      "epoch": 0.5640854472630173,
      "grad_norm": 0.9448632241585405,
      "learning_rate": 2.4258160237388723e-05,
      "loss": 0.777,
      "step": 845
    },
    {
      "epoch": 0.5674232309746329,
      "grad_norm": 0.8652639715383189,
      "learning_rate": 2.4072700296735907e-05,
      "loss": 0.7781,
      "step": 850
    },
    {
      "epoch": 0.5707610146862483,
      "grad_norm": 0.885349438416903,
      "learning_rate": 2.3887240356083086e-05,
      "loss": 0.7852,
      "step": 855
    },
    {
      "epoch": 0.5740987983978638,
      "grad_norm": 0.9226549883190552,
      "learning_rate": 2.370178041543027e-05,
      "loss": 0.7937,
      "step": 860
    },
    {
      "epoch": 0.5774365821094793,
      "grad_norm": 0.8894377701419424,
      "learning_rate": 2.351632047477745e-05,
      "loss": 0.7858,
      "step": 865
    },
    {
      "epoch": 0.5807743658210948,
      "grad_norm": 0.9417967618419559,
      "learning_rate": 2.333086053412463e-05,
      "loss": 0.7721,
      "step": 870
    },
    {
      "epoch": 0.5841121495327103,
      "grad_norm": 0.9222488011231172,
      "learning_rate": 2.3145400593471812e-05,
      "loss": 0.7511,
      "step": 875
    },
    {
      "epoch": 0.5874499332443258,
      "grad_norm": 0.8993397519730585,
      "learning_rate": 2.2959940652818992e-05,
      "loss": 0.7827,
      "step": 880
    },
    {
      "epoch": 0.5907877169559412,
      "grad_norm": 0.9136313639945539,
      "learning_rate": 2.2774480712166175e-05,
      "loss": 0.7714,
      "step": 885
    },
    {
      "epoch": 0.5941255006675568,
      "grad_norm": 0.9199729414745823,
      "learning_rate": 2.258902077151335e-05,
      "loss": 0.7761,
      "step": 890
    },
    {
      "epoch": 0.5974632843791722,
      "grad_norm": 0.8409864114208272,
      "learning_rate": 2.2403560830860534e-05,
      "loss": 0.7758,
      "step": 895
    },
    {
      "epoch": 0.6008010680907877,
      "grad_norm": 0.8927435513620092,
      "learning_rate": 2.2218100890207717e-05,
      "loss": 0.8088,
      "step": 900
    },
    {
      "epoch": 0.6041388518024032,
      "grad_norm": 1.0111242127600466,
      "learning_rate": 2.2032640949554897e-05,
      "loss": 0.787,
      "step": 905
    },
    {
      "epoch": 0.6074766355140186,
      "grad_norm": 0.9750007023233266,
      "learning_rate": 2.184718100890208e-05,
      "loss": 0.7951,
      "step": 910
    },
    {
      "epoch": 0.6108144192256342,
      "grad_norm": 0.8947817876635858,
      "learning_rate": 2.166172106824926e-05,
      "loss": 0.7718,
      "step": 915
    },
    {
      "epoch": 0.6141522029372497,
      "grad_norm": 0.8937079235831037,
      "learning_rate": 2.147626112759644e-05,
      "loss": 0.7653,
      "step": 920
    },
    {
      "epoch": 0.6174899866488651,
      "grad_norm": 0.9633412553738314,
      "learning_rate": 2.129080118694362e-05,
      "loss": 0.7588,
      "step": 925
    },
    {
      "epoch": 0.6208277703604806,
      "grad_norm": 0.9697623965265878,
      "learning_rate": 2.1105341246290803e-05,
      "loss": 0.7743,
      "step": 930
    },
    {
      "epoch": 0.6241655540720962,
      "grad_norm": 0.9170590153248661,
      "learning_rate": 2.0919881305637982e-05,
      "loss": 0.7939,
      "step": 935
    },
    {
      "epoch": 0.6275033377837116,
      "grad_norm": 0.8884986167305851,
      "learning_rate": 2.0734421364985165e-05,
      "loss": 0.7609,
      "step": 940
    },
    {
      "epoch": 0.6308411214953271,
      "grad_norm": 0.9117598511296207,
      "learning_rate": 2.0548961424332345e-05,
      "loss": 0.7816,
      "step": 945
    },
    {
      "epoch": 0.6341789052069426,
      "grad_norm": 0.9143844046049939,
      "learning_rate": 2.0363501483679525e-05,
      "loss": 0.7682,
      "step": 950
    },
    {
      "epoch": 0.6375166889185581,
      "grad_norm": 1.001882223179808,
      "learning_rate": 2.0178041543026708e-05,
      "loss": 0.7859,
      "step": 955
    },
    {
      "epoch": 0.6408544726301736,
      "grad_norm": 0.9515527243629021,
      "learning_rate": 1.9992581602373888e-05,
      "loss": 0.771,
      "step": 960
    },
    {
      "epoch": 0.644192256341789,
      "grad_norm": 0.9987405390627165,
      "learning_rate": 1.980712166172107e-05,
      "loss": 0.7882,
      "step": 965
    },
    {
      "epoch": 0.6475300400534045,
      "grad_norm": 0.902559098376266,
      "learning_rate": 1.962166172106825e-05,
      "loss": 0.7865,
      "step": 970
    },
    {
      "epoch": 0.6508678237650201,
      "grad_norm": 0.9530475037552353,
      "learning_rate": 1.943620178041543e-05,
      "loss": 0.7651,
      "step": 975
    },
    {
      "epoch": 0.6542056074766355,
      "grad_norm": 0.9044360545717226,
      "learning_rate": 1.9250741839762613e-05,
      "loss": 0.7611,
      "step": 980
    },
    {
      "epoch": 0.657543391188251,
      "grad_norm": 0.8949422084811579,
      "learning_rate": 1.9065281899109793e-05,
      "loss": 0.7535,
      "step": 985
    },
    {
      "epoch": 0.6608811748998665,
      "grad_norm": 0.9212385076203463,
      "learning_rate": 1.8879821958456976e-05,
      "loss": 0.7828,
      "step": 990
    },
    {
      "epoch": 0.664218958611482,
      "grad_norm": 0.9685512993064703,
      "learning_rate": 1.8694362017804153e-05,
      "loss": 0.7598,
      "step": 995
    },
    {
      "epoch": 0.6675567423230975,
      "grad_norm": 0.8371458023739065,
      "learning_rate": 1.8508902077151336e-05,
      "loss": 0.7593,
      "step": 1000
    },
    {
      "epoch": 0.670894526034713,
      "grad_norm": 0.9561174634421302,
      "learning_rate": 1.8323442136498515e-05,
      "loss": 0.7918,
      "step": 1005
    },
    {
      "epoch": 0.6742323097463284,
      "grad_norm": 0.988014946142732,
      "learning_rate": 1.81379821958457e-05,
      "loss": 0.7752,
      "step": 1010
    },
    {
      "epoch": 0.677570093457944,
      "grad_norm": 0.9594260489502082,
      "learning_rate": 1.795252225519288e-05,
      "loss": 0.7555,
      "step": 1015
    },
    {
      "epoch": 0.6809078771695594,
      "grad_norm": 0.9047734227550646,
      "learning_rate": 1.7767062314540058e-05,
      "loss": 0.7616,
      "step": 1020
    },
    {
      "epoch": 0.6842456608811749,
      "grad_norm": 0.8663553522012484,
      "learning_rate": 1.758160237388724e-05,
      "loss": 0.7796,
      "step": 1025
    },
    {
      "epoch": 0.6875834445927904,
      "grad_norm": 0.921325208555024,
      "learning_rate": 1.739614243323442e-05,
      "loss": 0.7641,
      "step": 1030
    },
    {
      "epoch": 0.6909212283044058,
      "grad_norm": 0.8876679055429972,
      "learning_rate": 1.7210682492581604e-05,
      "loss": 0.7676,
      "step": 1035
    },
    {
      "epoch": 0.6942590120160214,
      "grad_norm": 0.8958203531086095,
      "learning_rate": 1.7025222551928784e-05,
      "loss": 0.7444,
      "step": 1040
    },
    {
      "epoch": 0.6975967957276369,
      "grad_norm": 0.8697101652022063,
      "learning_rate": 1.6839762611275967e-05,
      "loss": 0.7994,
      "step": 1045
    },
    {
      "epoch": 0.7009345794392523,
      "grad_norm": 1.088915969712606,
      "learning_rate": 1.6654302670623147e-05,
      "loss": 0.7664,
      "step": 1050
    },
    {
      "epoch": 0.7042723631508678,
      "grad_norm": 0.9166954419190961,
      "learning_rate": 1.6468842729970326e-05,
      "loss": 0.7576,
      "step": 1055
    },
    {
      "epoch": 0.7076101468624834,
      "grad_norm": 1.0111723788145828,
      "learning_rate": 1.628338278931751e-05,
      "loss": 0.7437,
      "step": 1060
    },
    {
      "epoch": 0.7109479305740988,
      "grad_norm": 0.8935454904692272,
      "learning_rate": 1.609792284866469e-05,
      "loss": 0.7651,
      "step": 1065
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.9796810043507851,
      "learning_rate": 1.5912462908011872e-05,
      "loss": 0.7453,
      "step": 1070
    },
    {
      "epoch": 0.7176234979973297,
      "grad_norm": 0.9497605242721375,
      "learning_rate": 1.572700296735905e-05,
      "loss": 0.7518,
      "step": 1075
    },
    {
      "epoch": 0.7209612817089452,
      "grad_norm": 0.9261889971154708,
      "learning_rate": 1.5541543026706232e-05,
      "loss": 0.7509,
      "step": 1080
    },
    {
      "epoch": 0.7242990654205608,
      "grad_norm": 0.9221518501402585,
      "learning_rate": 1.5356083086053415e-05,
      "loss": 0.7383,
      "step": 1085
    },
    {
      "epoch": 0.7276368491321762,
      "grad_norm": 0.9905384423101319,
      "learning_rate": 1.5170623145400595e-05,
      "loss": 0.7651,
      "step": 1090
    },
    {
      "epoch": 0.7309746328437917,
      "grad_norm": 0.9591889790233724,
      "learning_rate": 1.4985163204747776e-05,
      "loss": 0.7631,
      "step": 1095
    },
    {
      "epoch": 0.7343124165554072,
      "grad_norm": 0.9087058012685387,
      "learning_rate": 1.4799703264094956e-05,
      "loss": 0.7535,
      "step": 1100
    },
    {
      "epoch": 0.7376502002670227,
      "grad_norm": 0.8692391342259392,
      "learning_rate": 1.4614243323442137e-05,
      "loss": 0.7374,
      "step": 1105
    },
    {
      "epoch": 0.7409879839786382,
      "grad_norm": 0.9298588940493733,
      "learning_rate": 1.4428783382789319e-05,
      "loss": 0.7423,
      "step": 1110
    },
    {
      "epoch": 0.7443257676902537,
      "grad_norm": 0.9381934382110304,
      "learning_rate": 1.42433234421365e-05,
      "loss": 0.7556,
      "step": 1115
    },
    {
      "epoch": 0.7476635514018691,
      "grad_norm": 0.9063091001621449,
      "learning_rate": 1.4057863501483681e-05,
      "loss": 0.742,
      "step": 1120
    },
    {
      "epoch": 0.7510013351134847,
      "grad_norm": 0.9344982528376456,
      "learning_rate": 1.387240356083086e-05,
      "loss": 0.7554,
      "step": 1125
    },
    {
      "epoch": 0.7543391188251002,
      "grad_norm": 0.9193075340785176,
      "learning_rate": 1.3686943620178041e-05,
      "loss": 0.7673,
      "step": 1130
    },
    {
      "epoch": 0.7576769025367156,
      "grad_norm": 0.9336576279968588,
      "learning_rate": 1.3501483679525222e-05,
      "loss": 0.7023,
      "step": 1135
    },
    {
      "epoch": 0.7610146862483311,
      "grad_norm": 0.9768530487657828,
      "learning_rate": 1.3316023738872405e-05,
      "loss": 0.7782,
      "step": 1140
    },
    {
      "epoch": 0.7643524699599465,
      "grad_norm": 0.9679956607339216,
      "learning_rate": 1.3130563798219587e-05,
      "loss": 0.763,
      "step": 1145
    },
    {
      "epoch": 0.7676902536715621,
      "grad_norm": 0.869544797745516,
      "learning_rate": 1.2945103857566765e-05,
      "loss": 0.7654,
      "step": 1150
    },
    {
      "epoch": 0.7710280373831776,
      "grad_norm": 0.985241850392532,
      "learning_rate": 1.2759643916913946e-05,
      "loss": 0.7699,
      "step": 1155
    },
    {
      "epoch": 0.774365821094793,
      "grad_norm": 0.9549632229431664,
      "learning_rate": 1.2574183976261128e-05,
      "loss": 0.7446,
      "step": 1160
    },
    {
      "epoch": 0.7777036048064085,
      "grad_norm": 0.9575556607619793,
      "learning_rate": 1.2388724035608309e-05,
      "loss": 0.761,
      "step": 1165
    },
    {
      "epoch": 0.7810413885180241,
      "grad_norm": 0.9994928229391189,
      "learning_rate": 1.2203264094955489e-05,
      "loss": 0.7493,
      "step": 1170
    },
    {
      "epoch": 0.7843791722296395,
      "grad_norm": 0.9965021892630818,
      "learning_rate": 1.2017804154302672e-05,
      "loss": 0.7602,
      "step": 1175
    },
    {
      "epoch": 0.787716955941255,
      "grad_norm": 0.9615733998987331,
      "learning_rate": 1.1832344213649853e-05,
      "loss": 0.7575,
      "step": 1180
    },
    {
      "epoch": 0.7910547396528705,
      "grad_norm": 0.995773743198864,
      "learning_rate": 1.1646884272997033e-05,
      "loss": 0.7411,
      "step": 1185
    },
    {
      "epoch": 0.794392523364486,
      "grad_norm": 0.8979251525490485,
      "learning_rate": 1.1461424332344215e-05,
      "loss": 0.7396,
      "step": 1190
    },
    {
      "epoch": 0.7977303070761015,
      "grad_norm": 0.8587947464461109,
      "learning_rate": 1.1275964391691394e-05,
      "loss": 0.7534,
      "step": 1195
    },
    {
      "epoch": 0.8010680907877169,
      "grad_norm": 0.9219949726663529,
      "learning_rate": 1.1090504451038576e-05,
      "loss": 0.7472,
      "step": 1200
    },
    {
      "epoch": 0.8044058744993324,
      "grad_norm": 0.9232814244897973,
      "learning_rate": 1.0905044510385757e-05,
      "loss": 0.7361,
      "step": 1205
    },
    {
      "epoch": 0.807743658210948,
      "grad_norm": 0.9036693012652329,
      "learning_rate": 1.0719584569732939e-05,
      "loss": 0.7714,
      "step": 1210
    },
    {
      "epoch": 0.8110814419225634,
      "grad_norm": 0.8986092027119317,
      "learning_rate": 1.053412462908012e-05,
      "loss": 0.7291,
      "step": 1215
    },
    {
      "epoch": 0.8144192256341789,
      "grad_norm": 0.9600751192343961,
      "learning_rate": 1.0348664688427301e-05,
      "loss": 0.7406,
      "step": 1220
    },
    {
      "epoch": 0.8177570093457944,
      "grad_norm": 0.9765858612379583,
      "learning_rate": 1.0163204747774481e-05,
      "loss": 0.744,
      "step": 1225
    },
    {
      "epoch": 0.8210947930574098,
      "grad_norm": 0.9436664489477504,
      "learning_rate": 9.977744807121663e-06,
      "loss": 0.7537,
      "step": 1230
    },
    {
      "epoch": 0.8244325767690254,
      "grad_norm": 0.9348268117808438,
      "learning_rate": 9.792284866468842e-06,
      "loss": 0.7466,
      "step": 1235
    },
    {
      "epoch": 0.8277703604806409,
      "grad_norm": 0.8839373635727904,
      "learning_rate": 9.606824925816024e-06,
      "loss": 0.7225,
      "step": 1240
    },
    {
      "epoch": 0.8311081441922563,
      "grad_norm": 0.9350825333412003,
      "learning_rate": 9.421364985163205e-06,
      "loss": 0.7535,
      "step": 1245
    },
    {
      "epoch": 0.8344459279038718,
      "grad_norm": 0.9170815856659084,
      "learning_rate": 9.235905044510387e-06,
      "loss": 0.7129,
      "step": 1250
    },
    {
      "epoch": 0.8377837116154874,
      "grad_norm": 0.8931728840330895,
      "learning_rate": 9.050445103857568e-06,
      "loss": 0.7312,
      "step": 1255
    },
    {
      "epoch": 0.8411214953271028,
      "grad_norm": 0.947606427769052,
      "learning_rate": 8.864985163204748e-06,
      "loss": 0.7198,
      "step": 1260
    },
    {
      "epoch": 0.8444592790387183,
      "grad_norm": 0.9867265496764112,
      "learning_rate": 8.679525222551929e-06,
      "loss": 0.7627,
      "step": 1265
    },
    {
      "epoch": 0.8477970627503337,
      "grad_norm": 1.0256443772674286,
      "learning_rate": 8.49406528189911e-06,
      "loss": 0.7466,
      "step": 1270
    },
    {
      "epoch": 0.8511348464619493,
      "grad_norm": 1.0226735020250939,
      "learning_rate": 8.30860534124629e-06,
      "loss": 0.7524,
      "step": 1275
    },
    {
      "epoch": 0.8544726301735648,
      "grad_norm": 0.918655948279863,
      "learning_rate": 8.123145400593472e-06,
      "loss": 0.7395,
      "step": 1280
    },
    {
      "epoch": 0.8578104138851802,
      "grad_norm": 0.9337021354955276,
      "learning_rate": 7.937685459940653e-06,
      "loss": 0.7311,
      "step": 1285
    },
    {
      "epoch": 0.8611481975967957,
      "grad_norm": 1.0290658689780736,
      "learning_rate": 7.752225519287835e-06,
      "loss": 0.7533,
      "step": 1290
    },
    {
      "epoch": 0.8644859813084113,
      "grad_norm": 0.9244023648001366,
      "learning_rate": 7.566765578635016e-06,
      "loss": 0.7366,
      "step": 1295
    },
    {
      "epoch": 0.8678237650200267,
      "grad_norm": 0.9537206897694197,
      "learning_rate": 7.381305637982196e-06,
      "loss": 0.7399,
      "step": 1300
    },
    {
      "epoch": 0.8711615487316422,
      "grad_norm": 0.8743472670723075,
      "learning_rate": 7.195845697329377e-06,
      "loss": 0.7296,
      "step": 1305
    },
    {
      "epoch": 0.8744993324432577,
      "grad_norm": 0.8934119128550586,
      "learning_rate": 7.0103857566765585e-06,
      "loss": 0.7416,
      "step": 1310
    },
    {
      "epoch": 0.8778371161548731,
      "grad_norm": 0.9618800479933417,
      "learning_rate": 6.824925816023739e-06,
      "loss": 0.7322,
      "step": 1315
    },
    {
      "epoch": 0.8811748998664887,
      "grad_norm": 0.830157637044439,
      "learning_rate": 6.6394658753709205e-06,
      "loss": 0.7292,
      "step": 1320
    },
    {
      "epoch": 0.8845126835781041,
      "grad_norm": 0.9363830426057013,
      "learning_rate": 6.4540059347181e-06,
      "loss": 0.734,
      "step": 1325
    },
    {
      "epoch": 0.8878504672897196,
      "grad_norm": 0.9442444285959836,
      "learning_rate": 6.2685459940652825e-06,
      "loss": 0.7297,
      "step": 1330
    },
    {
      "epoch": 0.8911882510013351,
      "grad_norm": 0.9348111437754156,
      "learning_rate": 6.083086053412463e-06,
      "loss": 0.7382,
      "step": 1335
    },
    {
      "epoch": 0.8945260347129506,
      "grad_norm": 0.894299426623852,
      "learning_rate": 5.8976261127596445e-06,
      "loss": 0.7125,
      "step": 1340
    },
    {
      "epoch": 0.8978638184245661,
      "grad_norm": 0.9736360020611752,
      "learning_rate": 5.712166172106825e-06,
      "loss": 0.7277,
      "step": 1345
    },
    {
      "epoch": 0.9012016021361816,
      "grad_norm": 0.9591002259783217,
      "learning_rate": 5.5267062314540065e-06,
      "loss": 0.7258,
      "step": 1350
    },
    {
      "epoch": 0.904539385847797,
      "grad_norm": 0.9710736921612175,
      "learning_rate": 5.341246290801187e-06,
      "loss": 0.7381,
      "step": 1355
    },
    {
      "epoch": 0.9078771695594126,
      "grad_norm": 0.8730608837945383,
      "learning_rate": 5.155786350148368e-06,
      "loss": 0.7251,
      "step": 1360
    },
    {
      "epoch": 0.9112149532710281,
      "grad_norm": 0.903052568907302,
      "learning_rate": 4.970326409495549e-06,
      "loss": 0.7094,
      "step": 1365
    },
    {
      "epoch": 0.9145527369826435,
      "grad_norm": 0.9621382332532343,
      "learning_rate": 4.7848664688427305e-06,
      "loss": 0.7227,
      "step": 1370
    },
    {
      "epoch": 0.917890520694259,
      "grad_norm": 0.9252627526168606,
      "learning_rate": 4.599406528189911e-06,
      "loss": 0.7271,
      "step": 1375
    },
    {
      "epoch": 0.9212283044058746,
      "grad_norm": 0.9417940189754115,
      "learning_rate": 4.413946587537092e-06,
      "loss": 0.7421,
      "step": 1380
    },
    {
      "epoch": 0.92456608811749,
      "grad_norm": 0.9682630131774531,
      "learning_rate": 4.228486646884274e-06,
      "loss": 0.7421,
      "step": 1385
    },
    {
      "epoch": 0.9279038718291055,
      "grad_norm": 1.0307114272788542,
      "learning_rate": 4.0430267062314545e-06,
      "loss": 0.7521,
      "step": 1390
    },
    {
      "epoch": 0.9312416555407209,
      "grad_norm": 0.8832770378598581,
      "learning_rate": 3.857566765578635e-06,
      "loss": 0.7124,
      "step": 1395
    },
    {
      "epoch": 0.9345794392523364,
      "grad_norm": 0.9746407857253272,
      "learning_rate": 3.672106824925816e-06,
      "loss": 0.7302,
      "step": 1400
    },
    {
      "epoch": 0.937917222963952,
      "grad_norm": 0.9499407254108757,
      "learning_rate": 3.4866468842729975e-06,
      "loss": 0.7128,
      "step": 1405
    },
    {
      "epoch": 0.9412550066755674,
      "grad_norm": 0.9145822943128387,
      "learning_rate": 3.3011869436201785e-06,
      "loss": 0.7322,
      "step": 1410
    },
    {
      "epoch": 0.9445927903871829,
      "grad_norm": 0.9757309463266676,
      "learning_rate": 3.115727002967359e-06,
      "loss": 0.7336,
      "step": 1415
    },
    {
      "epoch": 0.9479305740987984,
      "grad_norm": 0.9534792908684466,
      "learning_rate": 2.93026706231454e-06,
      "loss": 0.7312,
      "step": 1420
    },
    {
      "epoch": 0.9512683578104139,
      "grad_norm": 0.9679148570410533,
      "learning_rate": 2.744807121661721e-06,
      "loss": 0.7128,
      "step": 1425
    },
    {
      "epoch": 0.9546061415220294,
      "grad_norm": 0.9493106907067503,
      "learning_rate": 2.559347181008902e-06,
      "loss": 0.7306,
      "step": 1430
    },
    {
      "epoch": 0.9579439252336449,
      "grad_norm": 0.9679382523098454,
      "learning_rate": 2.3738872403560835e-06,
      "loss": 0.7328,
      "step": 1435
    },
    {
      "epoch": 0.9612817089452603,
      "grad_norm": 0.9317606747634454,
      "learning_rate": 2.188427299703264e-06,
      "loss": 0.7238,
      "step": 1440
    },
    {
      "epoch": 0.9646194926568759,
      "grad_norm": 0.9275615394707037,
      "learning_rate": 2.0029673590504455e-06,
      "loss": 0.7171,
      "step": 1445
    },
    {
      "epoch": 0.9679572763684913,
      "grad_norm": 0.9633454475236382,
      "learning_rate": 1.8175074183976263e-06,
      "loss": 0.708,
      "step": 1450
    },
    {
      "epoch": 0.9712950600801068,
      "grad_norm": 0.9399727708328366,
      "learning_rate": 1.6320474777448073e-06,
      "loss": 0.7291,
      "step": 1455
    },
    {
      "epoch": 0.9746328437917223,
      "grad_norm": 1.020554951634919,
      "learning_rate": 1.4465875370919883e-06,
      "loss": 0.7461,
      "step": 1460
    },
    {
      "epoch": 0.9779706275033377,
      "grad_norm": 0.985081620856249,
      "learning_rate": 1.2611275964391693e-06,
      "loss": 0.7228,
      "step": 1465
    },
    {
      "epoch": 0.9813084112149533,
      "grad_norm": 0.9385893286244219,
      "learning_rate": 1.0756676557863502e-06,
      "loss": 0.72,
      "step": 1470
    },
    {
      "epoch": 0.9846461949265688,
      "grad_norm": 1.0049513545701543,
      "learning_rate": 8.902077151335312e-07,
      "loss": 0.7147,
      "step": 1475
    },
    {
      "epoch": 0.9879839786381842,
      "grad_norm": 1.0099532146134622,
      "learning_rate": 7.047477744807121e-07,
      "loss": 0.7282,
      "step": 1480
    },
    {
      "epoch": 0.9913217623497997,
      "grad_norm": 0.8888912225564214,
      "learning_rate": 5.192878338278931e-07,
      "loss": 0.7332,
      "step": 1485
    },
    {
      "epoch": 0.9946595460614153,
      "grad_norm": 0.9997610443207388,
      "learning_rate": 3.338278931750742e-07,
      "loss": 0.7225,
      "step": 1490
    },
    {
      "epoch": 0.9979973297730307,
      "grad_norm": 0.9412531346267364,
      "learning_rate": 1.4836795252225522e-07,
      "loss": 0.7318,
      "step": 1495
    },
    {
      "epoch": 1.0,
      "step": 1498,
      "total_flos": 92324696948736.0,
      "train_loss": 0.788116905017593,
      "train_runtime": 3845.5406,
      "train_samples_per_second": 49.839,
      "train_steps_per_second": 0.39
    }
  ],
  "logging_steps": 5,
  "max_steps": 1498,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 180000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 92324696948736.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}