{
  "best_global_step": 200,
  "best_metric": 2.740701675415039,
  "best_model_checkpoint": null,
  "epoch": 0.76,
  "eval_steps": 100,
  "global_step": 285,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 18.99793815612793,
      "learning_rate": 0.0,
      "loss": 2.8968,
      "step": 1
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 11.996694564819336,
      "learning_rate": 0.0001,
      "loss": 2.7216,
      "step": 2
    },
    {
      "epoch": 0.008,
      "grad_norm": 13.868853569030762,
      "learning_rate": 0.0002,
      "loss": 2.7594,
      "step": 3
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 11.259204864501953,
      "learning_rate": 0.0003,
      "loss": 2.763,
      "step": 4
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 7.20668888092041,
      "learning_rate": 0.0004,
      "loss": 2.6533,
      "step": 5
    },
    {
      "epoch": 0.016,
      "grad_norm": 6.761629581451416,
      "learning_rate": 0.0005,
      "loss": 2.5771,
      "step": 6
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 5.149209499359131,
      "learning_rate": 0.0004993288590604027,
      "loss": 2.4775,
      "step": 7
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 5.3045172691345215,
      "learning_rate": 0.0004986577181208054,
      "loss": 2.4258,
      "step": 8
    },
    {
      "epoch": 0.024,
      "grad_norm": 4.353558540344238,
      "learning_rate": 0.0004979865771812081,
      "loss": 2.3734,
      "step": 9
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 6.34622049331665,
      "learning_rate": 0.0004973154362416108,
      "loss": 2.4293,
      "step": 10
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 4.698485374450684,
      "learning_rate": 0.0004966442953020134,
      "loss": 2.2754,
      "step": 11
    },
    {
      "epoch": 0.032,
      "grad_norm": 4.4563679695129395,
      "learning_rate": 0.0004959731543624161,
      "loss": 2.3387,
      "step": 12
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 4.204184532165527,
      "learning_rate": 0.0004953020134228188,
      "loss": 2.274,
      "step": 13
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 4.6718525886535645,
      "learning_rate": 0.0004946308724832214,
      "loss": 2.3,
      "step": 14
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.200247287750244,
      "learning_rate": 0.0004939597315436242,
      "loss": 2.1972,
      "step": 15
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 2.496098518371582,
      "learning_rate": 0.0004932885906040269,
      "loss": 2.2999,
      "step": 16
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 2.854609727859497,
      "learning_rate": 0.0004926174496644296,
      "loss": 2.2374,
      "step": 17
    },
    {
      "epoch": 0.048,
      "grad_norm": 3.2290594577789307,
      "learning_rate": 0.0004919463087248322,
      "loss": 2.2791,
      "step": 18
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 3.2531440258026123,
      "learning_rate": 0.0004912751677852349,
      "loss": 2.2158,
      "step": 19
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 2.5142836570739746,
      "learning_rate": 0.0004906040268456376,
      "loss": 2.2618,
      "step": 20
    },
    {
      "epoch": 0.056,
      "grad_norm": 2.7063865661621094,
      "learning_rate": 0.0004899328859060403,
      "loss": 2.3427,
      "step": 21
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 2.894263744354248,
      "learning_rate": 0.000489261744966443,
      "loss": 2.2904,
      "step": 22
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 2.6508796215057373,
      "learning_rate": 0.0004885906040268456,
      "loss": 2.2185,
      "step": 23
    },
    {
      "epoch": 0.064,
      "grad_norm": 4.005720138549805,
      "learning_rate": 0.0004879194630872483,
      "loss": 2.1725,
      "step": 24
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 2.0936405658721924,
      "learning_rate": 0.000487248322147651,
      "loss": 2.1567,
      "step": 25
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 2.376448154449463,
      "learning_rate": 0.00048657718120805374,
      "loss": 2.3067,
      "step": 26
    },
    {
      "epoch": 0.072,
      "grad_norm": 2.433168649673462,
      "learning_rate": 0.00048590604026845635,
      "loss": 2.414,
      "step": 27
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 2.4113612174987793,
      "learning_rate": 0.0004852348993288591,
      "loss": 2.1622,
      "step": 28
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 2.300220251083374,
      "learning_rate": 0.00048456375838926174,
      "loss": 2.1799,
      "step": 29
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.567547559738159,
      "learning_rate": 0.00048389261744966446,
      "loss": 2.313,
      "step": 30
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 2.345918893814087,
      "learning_rate": 0.0004832214765100671,
      "loss": 2.2494,
      "step": 31
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 2.4843552112579346,
      "learning_rate": 0.0004825503355704698,
      "loss": 2.1966,
      "step": 32
    },
    {
      "epoch": 0.088,
      "grad_norm": 2.4805150032043457,
      "learning_rate": 0.0004818791946308725,
      "loss": 2.1327,
      "step": 33
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 2.462193250656128,
      "learning_rate": 0.00048120805369127517,
      "loss": 2.2231,
      "step": 34
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 2.927288055419922,
      "learning_rate": 0.0004805369127516779,
      "loss": 2.1488,
      "step": 35
    },
    {
      "epoch": 0.096,
      "grad_norm": 3.126699686050415,
      "learning_rate": 0.0004798657718120805,
      "loss": 2.1518,
      "step": 36
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 2.0917441844940186,
      "learning_rate": 0.0004791946308724832,
      "loss": 2.1736,
      "step": 37
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 2.16457462310791,
      "learning_rate": 0.00047852348993288594,
      "loss": 2.1238,
      "step": 38
    },
    {
      "epoch": 0.104,
      "grad_norm": 2.4035158157348633,
      "learning_rate": 0.0004778523489932886,
      "loss": 2.2164,
      "step": 39
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 2.58906626701355,
      "learning_rate": 0.0004771812080536913,
      "loss": 2.1475,
      "step": 40
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 2.1741342544555664,
      "learning_rate": 0.00047651006711409394,
      "loss": 2.11,
      "step": 41
    },
    {
      "epoch": 0.112,
      "grad_norm": 2.265110969543457,
      "learning_rate": 0.00047583892617449665,
      "loss": 2.1681,
      "step": 42
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 2.3968636989593506,
      "learning_rate": 0.0004751677852348993,
      "loss": 2.2262,
      "step": 43
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 2.332958698272705,
      "learning_rate": 0.00047449664429530204,
      "loss": 2.2378,
      "step": 44
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.9767862558364868,
      "learning_rate": 0.00047382550335570476,
      "loss": 2.1622,
      "step": 45
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 2.2687995433807373,
      "learning_rate": 0.00047315436241610737,
      "loss": 2.2024,
      "step": 46
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 1.9566984176635742,
      "learning_rate": 0.0004724832214765101,
      "loss": 2.094,
      "step": 47
    },
    {
      "epoch": 0.128,
      "grad_norm": 3.261591911315918,
      "learning_rate": 0.00047181208053691275,
      "loss": 2.0753,
      "step": 48
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 2.3279614448547363,
      "learning_rate": 0.00047114093959731547,
      "loss": 2.1862,
      "step": 49
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 1.9362128973007202,
      "learning_rate": 0.0004704697986577181,
      "loss": 2.1482,
      "step": 50
    },
    {
      "epoch": 0.136,
      "grad_norm": 2.4454574584960938,
      "learning_rate": 0.0004697986577181208,
      "loss": 2.1528,
      "step": 51
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 1.8882256746292114,
      "learning_rate": 0.0004691275167785235,
      "loss": 2.0805,
      "step": 52
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 1.9548041820526123,
      "learning_rate": 0.0004684563758389262,
      "loss": 2.1315,
      "step": 53
    },
    {
      "epoch": 0.144,
      "grad_norm": 2.049616575241089,
      "learning_rate": 0.0004677852348993289,
      "loss": 2.1819,
      "step": 54
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 2.2909982204437256,
      "learning_rate": 0.0004671140939597315,
      "loss": 2.1856,
      "step": 55
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 2.1005330085754395,
      "learning_rate": 0.00046644295302013423,
      "loss": 2.0906,
      "step": 56
    },
    {
      "epoch": 0.152,
      "grad_norm": 2.2690324783325195,
      "learning_rate": 0.00046577181208053695,
      "loss": 2.1937,
      "step": 57
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 2.1487715244293213,
      "learning_rate": 0.0004651006711409396,
      "loss": 2.1735,
      "step": 58
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 2.1271591186523438,
      "learning_rate": 0.0004644295302013423,
      "loss": 2.1865,
      "step": 59
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9822970628738403,
      "learning_rate": 0.00046375838926174495,
      "loss": 2.1503,
      "step": 60
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 2.2608866691589355,
      "learning_rate": 0.00046308724832214767,
      "loss": 2.2522,
      "step": 61
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 2.4626386165618896,
      "learning_rate": 0.00046241610738255033,
      "loss": 2.1703,
      "step": 62
    },
    {
      "epoch": 0.168,
      "grad_norm": 2.0138027667999268,
      "learning_rate": 0.00046174496644295305,
      "loss": 2.273,
      "step": 63
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 2.023001194000244,
      "learning_rate": 0.0004610738255033557,
      "loss": 2.2078,
      "step": 64
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 1.9026998281478882,
      "learning_rate": 0.0004604026845637584,
      "loss": 2.1624,
      "step": 65
    },
    {
      "epoch": 0.176,
      "grad_norm": 2.529275417327881,
      "learning_rate": 0.0004597315436241611,
      "loss": 2.1886,
      "step": 66
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 2.714327096939087,
      "learning_rate": 0.00045906040268456377,
      "loss": 2.1777,
      "step": 67
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 2.068495035171509,
      "learning_rate": 0.0004583892617449665,
      "loss": 2.1414,
      "step": 68
    },
    {
      "epoch": 0.184,
      "grad_norm": 2.427833080291748,
      "learning_rate": 0.0004577181208053691,
      "loss": 2.2098,
      "step": 69
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 2.0356478691101074,
      "learning_rate": 0.0004570469798657718,
      "loss": 2.1437,
      "step": 70
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 2.0538289546966553,
      "learning_rate": 0.00045637583892617453,
      "loss": 2.2302,
      "step": 71
    },
    {
      "epoch": 0.192,
      "grad_norm": 2.5733108520507812,
      "learning_rate": 0.0004557046979865772,
      "loss": 2.1042,
      "step": 72
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 2.566141366958618,
      "learning_rate": 0.00045503355704697986,
      "loss": 2.2464,
      "step": 73
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 2.350034236907959,
      "learning_rate": 0.00045436241610738253,
      "loss": 2.1898,
      "step": 74
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.9391041994094849,
      "learning_rate": 0.00045369127516778525,
      "loss": 2.0656,
      "step": 75
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 2.1555047035217285,
      "learning_rate": 0.00045302013422818797,
      "loss": 2.0669,
      "step": 76
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 2.3165154457092285,
      "learning_rate": 0.00045234899328859063,
      "loss": 2.065,
      "step": 77
    },
    {
      "epoch": 0.208,
      "grad_norm": 2.1037423610687256,
      "learning_rate": 0.0004516778523489933,
      "loss": 2.1215,
      "step": 78
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 2.142181634902954,
      "learning_rate": 0.00045100671140939596,
      "loss": 2.1088,
      "step": 79
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 2.0997326374053955,
      "learning_rate": 0.0004503355704697987,
      "loss": 2.0795,
      "step": 80
    },
    {
      "epoch": 0.216,
      "grad_norm": 2.4189531803131104,
      "learning_rate": 0.00044966442953020135,
      "loss": 2.2738,
      "step": 81
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 2.238974094390869,
      "learning_rate": 0.000448993288590604,
      "loss": 2.1024,
      "step": 82
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 2.597956895828247,
      "learning_rate": 0.00044832214765100673,
      "loss": 2.1586,
      "step": 83
    },
    {
      "epoch": 0.224,
      "grad_norm": 2.6692593097686768,
      "learning_rate": 0.0004476510067114094,
      "loss": 2.2619,
      "step": 84
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 2.338456630706787,
      "learning_rate": 0.0004469798657718121,
      "loss": 2.2293,
      "step": 85
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 2.1509850025177,
      "learning_rate": 0.0004463087248322148,
      "loss": 2.1885,
      "step": 86
    },
    {
      "epoch": 0.232,
      "grad_norm": 1.868327021598816,
      "learning_rate": 0.00044563758389261745,
      "loss": 2.1006,
      "step": 87
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 2.0828697681427,
      "learning_rate": 0.0004449664429530201,
      "loss": 2.2007,
      "step": 88
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 2.0917301177978516,
      "learning_rate": 0.00044429530201342283,
      "loss": 2.0403,
      "step": 89
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9218182563781738,
      "learning_rate": 0.00044362416107382555,
      "loss": 2.1742,
      "step": 90
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 1.991309404373169,
      "learning_rate": 0.0004429530201342282,
      "loss": 2.2386,
      "step": 91
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 2.089097499847412,
      "learning_rate": 0.0004422818791946309,
      "loss": 2.2832,
      "step": 92
    },
    {
      "epoch": 0.248,
      "grad_norm": 2.3613646030426025,
      "learning_rate": 0.00044161073825503354,
      "loss": 2.0967,
      "step": 93
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 2.2647705078125,
      "learning_rate": 0.00044093959731543626,
      "loss": 2.1749,
      "step": 94
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 2.557692289352417,
      "learning_rate": 0.00044026845637583893,
      "loss": 2.1571,
      "step": 95
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.1566359996795654,
      "learning_rate": 0.0004395973154362416,
      "loss": 2.1789,
      "step": 96
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 1.8936281204223633,
      "learning_rate": 0.0004389261744966443,
      "loss": 2.1424,
      "step": 97
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 2.8550844192504883,
      "learning_rate": 0.000438255033557047,
      "loss": 2.1369,
      "step": 98
    },
    {
      "epoch": 0.264,
      "grad_norm": 2.6517467498779297,
      "learning_rate": 0.0004375838926174497,
      "loss": 2.2398,
      "step": 99
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 2.4939329624176025,
      "learning_rate": 0.00043691275167785236,
      "loss": 2.2705,
      "step": 100
    },
    {
      "epoch": 0.26666666666666666,
      "eval_loss": 2.744743585586548,
      "eval_runtime": 2.9879,
      "eval_samples_per_second": 33.468,
      "eval_steps_per_second": 4.351,
      "step": 100
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 1.9077235460281372,
      "learning_rate": 0.000436241610738255,
      "loss": 2.1767,
      "step": 101
    },
    {
      "epoch": 0.272,
      "grad_norm": 1.8216391801834106,
      "learning_rate": 0.00043557046979865775,
      "loss": 2.1175,
      "step": 102
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 2.1698806285858154,
      "learning_rate": 0.0004348993288590604,
      "loss": 2.1728,
      "step": 103
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 1.9396804571151733,
      "learning_rate": 0.00043422818791946313,
      "loss": 2.0818,
      "step": 104
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1544346809387207,
      "learning_rate": 0.00043355704697986574,
      "loss": 2.1498,
      "step": 105
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 1.983604907989502,
      "learning_rate": 0.00043288590604026846,
      "loss": 2.194,
      "step": 106
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 3.0730369091033936,
      "learning_rate": 0.0004322147651006711,
      "loss": 2.1437,
      "step": 107
    },
    {
      "epoch": 0.288,
      "grad_norm": 2.2146384716033936,
      "learning_rate": 0.00043154362416107384,
      "loss": 2.2381,
      "step": 108
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 1.7721198797225952,
      "learning_rate": 0.00043087248322147656,
      "loss": 2.1758,
      "step": 109
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 1.905593991279602,
      "learning_rate": 0.0004302013422818792,
      "loss": 2.152,
      "step": 110
    },
    {
      "epoch": 0.296,
      "grad_norm": 2.222337484359741,
      "learning_rate": 0.0004295302013422819,
      "loss": 2.1278,
      "step": 111
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 1.9015562534332275,
      "learning_rate": 0.00042885906040268456,
      "loss": 2.1701,
      "step": 112
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 2.0160012245178223,
      "learning_rate": 0.0004281879194630873,
      "loss": 2.1139,
      "step": 113
    },
    {
      "epoch": 0.304,
      "grad_norm": 2.5178940296173096,
      "learning_rate": 0.00042751677852348994,
      "loss": 2.1912,
      "step": 114
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 1.9496968984603882,
      "learning_rate": 0.0004268456375838926,
      "loss": 2.1285,
      "step": 115
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 1.9165014028549194,
      "learning_rate": 0.0004261744966442953,
      "loss": 2.1468,
      "step": 116
    },
    {
      "epoch": 0.312,
      "grad_norm": 2.064317464828491,
      "learning_rate": 0.000425503355704698,
      "loss": 2.1306,
      "step": 117
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 2.1233792304992676,
      "learning_rate": 0.0004248322147651007,
      "loss": 2.0635,
      "step": 118
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 2.2450101375579834,
      "learning_rate": 0.0004241610738255033,
      "loss": 2.2343,
      "step": 119
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.2606186866760254,
      "learning_rate": 0.00042348993288590604,
      "loss": 2.0978,
      "step": 120
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 2.1984171867370605,
      "learning_rate": 0.00042281879194630876,
      "loss": 2.2415,
      "step": 121
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 2.1734187602996826,
      "learning_rate": 0.0004221476510067114,
      "loss": 2.1066,
      "step": 122
    },
    {
      "epoch": 0.328,
      "grad_norm": 2.565073013305664,
      "learning_rate": 0.00042147651006711414,
      "loss": 2.2116,
      "step": 123
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 2.5273349285125732,
      "learning_rate": 0.00042080536912751675,
      "loss": 2.2632,
      "step": 124
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 2.053875207901001,
      "learning_rate": 0.0004201342281879195,
      "loss": 2.0613,
      "step": 125
    },
    {
      "epoch": 0.336,
      "grad_norm": 2.1504480838775635,
      "learning_rate": 0.00041946308724832214,
      "loss": 2.1702,
      "step": 126
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 1.9674434661865234,
      "learning_rate": 0.00041879194630872486,
      "loss": 2.2179,
      "step": 127
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 2.0371594429016113,
      "learning_rate": 0.0004181208053691275,
      "loss": 2.1576,
      "step": 128
    },
    {
      "epoch": 0.344,
      "grad_norm": 2.1722424030303955,
      "learning_rate": 0.0004174496644295302,
      "loss": 2.1568,
      "step": 129
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 1.8493080139160156,
      "learning_rate": 0.0004167785234899329,
      "loss": 2.1448,
      "step": 130
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 1.8906511068344116,
      "learning_rate": 0.00041610738255033557,
      "loss": 2.1382,
      "step": 131
    },
    {
      "epoch": 0.352,
      "grad_norm": 2.458812952041626,
      "learning_rate": 0.0004154362416107383,
      "loss": 2.1413,
      "step": 132
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 1.8810272216796875,
      "learning_rate": 0.0004147651006711409,
      "loss": 2.1943,
      "step": 133
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 2.4485628604888916,
      "learning_rate": 0.0004140939597315436,
      "loss": 2.2619,
      "step": 134
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.633702278137207,
      "learning_rate": 0.00041342281879194634,
      "loss": 2.3566,
      "step": 135
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 1.8953648805618286,
      "learning_rate": 0.000412751677852349,
      "loss": 2.1156,
      "step": 136
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 2.009206533432007,
      "learning_rate": 0.0004120805369127517,
      "loss": 2.1292,
      "step": 137
    },
    {
      "epoch": 0.368,
      "grad_norm": 2.1863133907318115,
      "learning_rate": 0.00041140939597315434,
      "loss": 2.1048,
      "step": 138
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 2.2830810546875,
      "learning_rate": 0.00041073825503355705,
      "loss": 2.2971,
      "step": 139
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 1.7698041200637817,
      "learning_rate": 0.0004100671140939598,
      "loss": 2.1421,
      "step": 140
    },
    {
      "epoch": 0.376,
      "grad_norm": 1.9662206172943115,
      "learning_rate": 0.00040939597315436244,
      "loss": 2.073,
      "step": 141
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 1.842811107635498,
      "learning_rate": 0.0004087248322147651,
      "loss": 2.1251,
      "step": 142
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 2.3966176509857178,
      "learning_rate": 0.00040805369127516777,
      "loss": 2.2615,
      "step": 143
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.8330518007278442,
      "learning_rate": 0.0004073825503355705,
      "loss": 2.1212,
      "step": 144
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 2.2815067768096924,
      "learning_rate": 0.00040671140939597315,
      "loss": 1.9967,
      "step": 145
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 2.0610122680664062,
      "learning_rate": 0.00040604026845637587,
      "loss": 2.1672,
      "step": 146
    },
    {
      "epoch": 0.392,
      "grad_norm": 2.2148237228393555,
      "learning_rate": 0.00040536912751677854,
      "loss": 2.12,
      "step": 147
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 2.140583038330078,
      "learning_rate": 0.0004046979865771812,
      "loss": 2.2654,
      "step": 148
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 2.087383270263672,
      "learning_rate": 0.0004040268456375839,
      "loss": 2.0081,
      "step": 149
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.019127368927002,
      "learning_rate": 0.0004033557046979866,
      "loss": 2.2961,
      "step": 150
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 2.156116485595703,
      "learning_rate": 0.00040268456375838925,
      "loss": 2.1146,
      "step": 151
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 2.1553804874420166,
      "learning_rate": 0.0004020134228187919,
      "loss": 2.2517,
      "step": 152
    },
    {
      "epoch": 0.408,
      "grad_norm": 2.3060996532440186,
      "learning_rate": 0.00040134228187919464,
      "loss": 2.1544,
      "step": 153
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 2.078162431716919,
      "learning_rate": 0.00040067114093959735,
      "loss": 2.1286,
      "step": 154
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 2.1695902347564697,
      "learning_rate": 0.0004,
      "loss": 2.2246,
      "step": 155
    },
    {
      "epoch": 0.416,
      "grad_norm": 2.2290070056915283,
      "learning_rate": 0.0003993288590604027,
      "loss": 2.2081,
      "step": 156
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 2.1992504596710205,
      "learning_rate": 0.00039865771812080535,
      "loss": 2.1093,
      "step": 157
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 2.001126527786255,
      "learning_rate": 0.00039798657718120807,
      "loss": 2.2068,
      "step": 158
    },
    {
      "epoch": 0.424,
      "grad_norm": 2.8013081550598145,
      "learning_rate": 0.0003973154362416108,
      "loss": 2.2607,
      "step": 159
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 2.1828129291534424,
      "learning_rate": 0.00039664429530201345,
      "loss": 2.1367,
      "step": 160
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 2.2790374755859375,
      "learning_rate": 0.0003959731543624161,
      "loss": 2.1564,
      "step": 161
    },
    {
      "epoch": 0.432,
      "grad_norm": 2.4061520099639893,
      "learning_rate": 0.0003953020134228188,
      "loss": 2.1546,
      "step": 162
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 1.9639766216278076,
      "learning_rate": 0.0003946308724832215,
      "loss": 2.091,
      "step": 163
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 2.1262893676757812,
      "learning_rate": 0.00039395973154362417,
      "loss": 2.1445,
      "step": 164
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9325850009918213,
      "learning_rate": 0.00039328859060402683,
      "loss": 2.1136,
      "step": 165
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 1.871358036994934,
      "learning_rate": 0.00039261744966442955,
      "loss": 2.1256,
      "step": 166
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 2.239694118499756,
      "learning_rate": 0.0003919463087248322,
      "loss": 2.1037,
      "step": 167
    },
    {
      "epoch": 0.448,
      "grad_norm": 2.328955888748169,
      "learning_rate": 0.00039127516778523493,
      "loss": 2.153,
      "step": 168
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 2.0680394172668457,
      "learning_rate": 0.0003906040268456376,
      "loss": 2.2259,
      "step": 169
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 2.0476558208465576,
      "learning_rate": 0.00038993288590604026,
      "loss": 2.066,
      "step": 170
    },
    {
      "epoch": 0.456,
      "grad_norm": 1.8802927732467651,
      "learning_rate": 0.00038926174496644293,
      "loss": 2.2538,
      "step": 171
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 2.389678955078125,
      "learning_rate": 0.00038859060402684565,
      "loss": 2.1479,
      "step": 172
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 2.0446889400482178,
      "learning_rate": 0.00038791946308724837,
      "loss": 2.0938,
      "step": 173
    },
    {
      "epoch": 0.464,
      "grad_norm": 2.309231996536255,
      "learning_rate": 0.000387248322147651,
      "loss": 2.102,
      "step": 174
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 2.3548967838287354,
      "learning_rate": 0.0003865771812080537,
      "loss": 1.929,
      "step": 175
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 2.109212636947632,
      "learning_rate": 0.00038590604026845636,
      "loss": 2.1874,
      "step": 176
    },
    {
      "epoch": 0.472,
      "grad_norm": 1.7046563625335693,
      "learning_rate": 0.0003852348993288591,
      "loss": 2.0835,
      "step": 177
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 2.3349504470825195,
      "learning_rate": 0.0003845637583892618,
      "loss": 2.1755,
      "step": 178
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 1.9932845830917358,
      "learning_rate": 0.0003838926174496644,
      "loss": 2.1853,
      "step": 179
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.896245002746582,
      "learning_rate": 0.00038322147651006713,
      "loss": 2.2239,
      "step": 180
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 2.451906204223633,
      "learning_rate": 0.0003825503355704698,
      "loss": 2.1803,
      "step": 181
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 3.5472662448883057,
      "learning_rate": 0.0003818791946308725,
      "loss": 2.1781,
      "step": 182
    },
    {
      "epoch": 0.488,
      "grad_norm": 1.7954983711242676,
      "learning_rate": 0.0003812080536912752,
      "loss": 2.1159,
      "step": 183
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 2.308729410171509,
      "learning_rate": 0.00038053691275167785,
      "loss": 2.2176,
      "step": 184
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 2.430508613586426,
      "learning_rate": 0.00037986577181208056,
      "loss": 2.1742,
      "step": 185
    },
    {
      "epoch": 0.496,
      "grad_norm": 3.750340461730957,
      "learning_rate": 0.00037919463087248323,
      "loss": 2.1848,
      "step": 186
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 1.8468990325927734,
      "learning_rate": 0.00037852348993288595,
      "loss": 2.2697,
      "step": 187
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 1.6696285009384155,
      "learning_rate": 0.00037785234899328856,
      "loss": 2.119,
      "step": 188
    },
    {
      "epoch": 0.504,
      "grad_norm": 2.6666688919067383,
      "learning_rate": 0.0003771812080536913,
      "loss": 2.0995,
      "step": 189
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 1.7461131811141968,
      "learning_rate": 0.00037651006711409394,
      "loss": 2.1585,
      "step": 190
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 1.8945667743682861,
      "learning_rate": 0.00037583892617449666,
      "loss": 2.2269,
      "step": 191
    },
    {
      "epoch": 0.512,
      "grad_norm": 2.1470212936401367,
      "learning_rate": 0.0003751677852348994,
      "loss": 2.1429,
      "step": 192
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 1.98981511592865,
      "learning_rate": 0.000374496644295302,
      "loss": 2.0532,
      "step": 193
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 2.916414260864258,
      "learning_rate": 0.0003738255033557047,
      "loss": 2.1565,
      "step": 194
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0814547538757324,
      "learning_rate": 0.0003731543624161074,
      "loss": 2.059,
      "step": 195
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 2.5623323917388916,
      "learning_rate": 0.0003724832214765101,
      "loss": 2.246,
      "step": 196
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 2.0759260654449463,
      "learning_rate": 0.0003718120805369127,
      "loss": 2.1994,
      "step": 197
    },
    {
      "epoch": 0.528,
      "grad_norm": 2.0958433151245117,
      "learning_rate": 0.0003711409395973154,
      "loss": 2.312,
      "step": 198
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 1.9345588684082031,
      "learning_rate": 0.00037046979865771815,
      "loss": 2.262,
      "step": 199
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 2.496511697769165,
      "learning_rate": 0.0003697986577181208,
      "loss": 2.1374,
      "step": 200
    },
    {
      "epoch": 0.5333333333333333,
      "eval_loss": 2.740701675415039,
      "eval_runtime": 2.9679,
      "eval_samples_per_second": 33.693,
      "eval_steps_per_second": 4.38,
      "step": 200
    },
    {
      "epoch": 0.536,
      "grad_norm": 2.432771921157837,
      "learning_rate": 0.00036912751677852353,
      "loss": 2.0972,
      "step": 201
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 1.7450460195541382,
      "learning_rate": 0.00036845637583892614,
      "loss": 2.1,
      "step": 202
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 2.1547839641571045,
      "learning_rate": 0.00036778523489932886,
      "loss": 2.2389,
      "step": 203
    },
    {
      "epoch": 0.544,
      "grad_norm": 2.068830966949463,
      "learning_rate": 0.0003671140939597316,
      "loss": 2.1345,
      "step": 204
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 1.9365946054458618,
      "learning_rate": 0.00036644295302013424,
      "loss": 2.2807,
      "step": 205
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 2.5042197704315186,
      "learning_rate": 0.00036577181208053696,
      "loss": 2.1585,
      "step": 206
    },
    {
      "epoch": 0.552,
      "grad_norm": 2.1041066646575928,
      "learning_rate": 0.0003651006711409396,
      "loss": 2.2156,
      "step": 207
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 1.9482405185699463,
      "learning_rate": 0.0003644295302013423,
      "loss": 2.1189,
      "step": 208
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 1.7892388105392456,
      "learning_rate": 0.00036375838926174496,
      "loss": 2.252,
      "step": 209
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.888733148574829,
      "learning_rate": 0.0003630872483221477,
      "loss": 2.1769,
      "step": 210
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 2.031954050064087,
      "learning_rate": 0.00036241610738255034,
      "loss": 2.1701,
      "step": 211
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 2.3231399059295654,
      "learning_rate": 0.000361744966442953,
      "loss": 2.1861,
      "step": 212
    },
    {
      "epoch": 0.568,
      "grad_norm": 1.788241982460022,
      "learning_rate": 0.0003610738255033557,
      "loss": 2.2834,
      "step": 213
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 2.1457693576812744,
      "learning_rate": 0.0003604026845637584,
      "loss": 2.1962,
      "step": 214
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 2.0327866077423096,
      "learning_rate": 0.0003597315436241611,
      "loss": 2.2073,
      "step": 215
    },
    {
      "epoch": 0.576,
      "grad_norm": 2.115037679672241,
      "learning_rate": 0.0003590604026845637,
      "loss": 2.2295,
      "step": 216
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 2.880354404449463,
      "learning_rate": 0.00035838926174496644,
      "loss": 2.1047,
      "step": 217
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 2.5368404388427734,
      "learning_rate": 0.00035771812080536916,
      "loss": 2.0423,
      "step": 218
    },
    {
      "epoch": 0.584,
      "grad_norm": 2.4011788368225098,
      "learning_rate": 0.0003570469798657718,
      "loss": 2.1397,
      "step": 219
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 2.1273884773254395,
      "learning_rate": 0.0003563758389261745,
      "loss": 2.1233,
      "step": 220
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 1.984899878501892,
      "learning_rate": 0.00035570469798657715,
      "loss": 2.127,
      "step": 221
    },
    {
      "epoch": 0.592,
      "grad_norm": 2.167083740234375,
      "learning_rate": 0.0003550335570469799,
      "loss": 2.232,
      "step": 222
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 3.239032030105591,
      "learning_rate": 0.0003543624161073826,
      "loss": 2.1998,
      "step": 223
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 2.70060396194458,
      "learning_rate": 0.00035369127516778526,
      "loss": 2.165,
      "step": 224
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.549748420715332,
      "learning_rate": 0.0003530201342281879,
      "loss": 2.1345,
      "step": 225
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 2.5467982292175293,
      "learning_rate": 0.0003523489932885906,
      "loss": 2.2186,
      "step": 226
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 2.024928569793701,
      "learning_rate": 0.0003516778523489933,
      "loss": 2.2048,
      "step": 227
    },
    {
      "epoch": 0.608,
      "grad_norm": 2.339001178741455,
      "learning_rate": 0.00035100671140939597,
      "loss": 2.1128,
      "step": 228
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 2.081657648086548,
      "learning_rate": 0.0003503355704697987,
      "loss": 2.1481,
      "step": 229
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 2.5542891025543213,
      "learning_rate": 0.00034966442953020136,
      "loss": 2.1139,
      "step": 230
    },
    {
      "epoch": 0.616,
      "grad_norm": 2.399930715560913,
      "learning_rate": 0.000348993288590604,
      "loss": 2.2168,
      "step": 231
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 2.841947317123413,
      "learning_rate": 0.00034832214765100674,
      "loss": 2.2292,
      "step": 232
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 2.096691846847534,
      "learning_rate": 0.0003476510067114094,
      "loss": 2.281,
      "step": 233
    },
    {
      "epoch": 0.624,
      "grad_norm": 2.235191583633423,
      "learning_rate": 0.00034697986577181207,
      "loss": 2.1423,
      "step": 234
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 1.98981511592865,
      "learning_rate": 0.00034630872483221474,
      "loss": 2.0963,
      "step": 235
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 2.562321424484253,
      "learning_rate": 0.00034563758389261745,
      "loss": 2.2252,
      "step": 236
    },
    {
      "epoch": 0.632,
      "grad_norm": 1.957816243171692,
      "learning_rate": 0.0003449664429530202,
      "loss": 2.1558,
      "step": 237
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 2.5037527084350586,
      "learning_rate": 0.00034429530201342284,
      "loss": 2.1328,
      "step": 238
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 2.771223783493042,
      "learning_rate": 0.0003436241610738255,
      "loss": 2.0781,
      "step": 239
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.536529541015625,
      "learning_rate": 0.00034295302013422817,
      "loss": 2.1027,
      "step": 240
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 2.237752676010132,
      "learning_rate": 0.0003422818791946309,
      "loss": 2.1383,
      "step": 241
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 1.5845708847045898,
      "learning_rate": 0.0003416107382550336,
      "loss": 2.023,
      "step": 242
    },
    {
      "epoch": 0.648,
      "grad_norm": 1.7144144773483276,
      "learning_rate": 0.0003409395973154362,
      "loss": 2.1981,
      "step": 243
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 1.855108618736267,
      "learning_rate": 0.00034026845637583894,
      "loss": 2.2067,
      "step": 244
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 2.1525416374206543,
      "learning_rate": 0.0003395973154362416,
      "loss": 2.1202,
      "step": 245
    },
    {
      "epoch": 0.656,
      "grad_norm": 2.037158250808716,
      "learning_rate": 0.0003389261744966443,
      "loss": 1.9837,
      "step": 246
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 1.9977716207504272,
      "learning_rate": 0.000338255033557047,
      "loss": 2.0789,
      "step": 247
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 2.34332537651062,
      "learning_rate": 0.00033758389261744965,
      "loss": 2.1831,
      "step": 248
    },
    {
      "epoch": 0.664,
      "grad_norm": 1.906984806060791,
      "learning_rate": 0.00033691275167785237,
      "loss": 2.1709,
      "step": 249
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.040377378463745,
      "learning_rate": 0.00033624161073825504,
      "loss": 2.17,
      "step": 250
    },
    {
      "epoch": 0.6693333333333333,
      "grad_norm": 2.194075584411621,
      "learning_rate": 0.00033557046979865775,
      "loss": 2.1339,
      "step": 251
    },
    {
      "epoch": 0.672,
      "grad_norm": 1.8506706953048706,
      "learning_rate": 0.0003348993288590604,
      "loss": 2.0948,
      "step": 252
    },
    {
      "epoch": 0.6746666666666666,
      "grad_norm": 2.300224542617798,
      "learning_rate": 0.0003342281879194631,
      "loss": 2.158,
      "step": 253
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 2.17006254196167,
      "learning_rate": 0.00033355704697986575,
      "loss": 2.0909,
      "step": 254
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.01373028755188,
      "learning_rate": 0.00033288590604026847,
      "loss": 2.1176,
      "step": 255
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 2.039323329925537,
      "learning_rate": 0.0003322147651006712,
      "loss": 2.0425,
      "step": 256
    },
    {
      "epoch": 0.6853333333333333,
      "grad_norm": 2.055745840072632,
      "learning_rate": 0.0003315436241610738,
      "loss": 2.2604,
      "step": 257
    },
    {
      "epoch": 0.688,
      "grad_norm": 2.216076135635376,
      "learning_rate": 0.0003308724832214765,
      "loss": 2.1056,
      "step": 258
    },
    {
      "epoch": 0.6906666666666667,
      "grad_norm": 2.107740640640259,
      "learning_rate": 0.0003302013422818792,
      "loss": 2.1517,
      "step": 259
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 2.030858039855957,
      "learning_rate": 0.0003295302013422819,
      "loss": 2.1023,
      "step": 260
    },
    {
      "epoch": 0.696,
      "grad_norm": 2.606762409210205,
      "learning_rate": 0.0003288590604026846,
      "loss": 2.2656,
      "step": 261
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 2.219172239303589,
      "learning_rate": 0.00032818791946308723,
      "loss": 2.1788,
      "step": 262
    },
    {
      "epoch": 0.7013333333333334,
      "grad_norm": 2.073962926864624,
      "learning_rate": 0.00032751677852348995,
      "loss": 2.2169,
      "step": 263
    },
    {
      "epoch": 0.704,
      "grad_norm": 2.245675563812256,
      "learning_rate": 0.0003268456375838926,
      "loss": 2.0914,
      "step": 264
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 2.268787384033203,
      "learning_rate": 0.00032617449664429533,
      "loss": 2.2603,
      "step": 265
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 2.13130521774292,
      "learning_rate": 0.00032550335570469795,
      "loss": 2.1441,
      "step": 266
    },
    {
      "epoch": 0.712,
      "grad_norm": 2.3065457344055176,
      "learning_rate": 0.00032483221476510066,
      "loss": 2.0655,
      "step": 267
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 1.823378562927246,
      "learning_rate": 0.0003241610738255034,
      "loss": 2.1941,
      "step": 268
    },
    {
      "epoch": 0.7173333333333334,
      "grad_norm": 2.497478485107422,
      "learning_rate": 0.00032348993288590605,
      "loss": 2.133,
      "step": 269
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.1215364933013916,
      "learning_rate": 0.00032281879194630877,
      "loss": 2.212,
      "step": 270
    },
    {
      "epoch": 0.7226666666666667,
      "grad_norm": 2.1457154750823975,
      "learning_rate": 0.0003221476510067114,
      "loss": 2.0565,
      "step": 271
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 2.054640769958496,
      "learning_rate": 0.0003214765100671141,
      "loss": 2.1846,
      "step": 272
    },
    {
      "epoch": 0.728,
      "grad_norm": 2.0127322673797607,
      "learning_rate": 0.00032080536912751676,
      "loss": 2.1023,
      "step": 273
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 2.287769317626953,
      "learning_rate": 0.0003201342281879195,
      "loss": 2.2209,
      "step": 274
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 2.2740089893341064,
      "learning_rate": 0.0003194630872483222,
      "loss": 2.1794,
      "step": 275
    },
    {
      "epoch": 0.736,
      "grad_norm": 1.9273651838302612,
      "learning_rate": 0.0003187919463087248,
      "loss": 2.1494,
      "step": 276
    },
    {
      "epoch": 0.7386666666666667,
      "grad_norm": 1.9163007736206055,
      "learning_rate": 0.00031812080536912753,
      "loss": 2.1361,
      "step": 277
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 2.034879446029663,
      "learning_rate": 0.0003174496644295302,
      "loss": 2.1002,
      "step": 278
    },
    {
      "epoch": 0.744,
      "grad_norm": 2.0113587379455566,
      "learning_rate": 0.0003167785234899329,
      "loss": 2.0556,
      "step": 279
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 1.9540075063705444,
      "learning_rate": 0.0003161073825503356,
      "loss": 2.1205,
      "step": 280
    },
    {
      "epoch": 0.7493333333333333,
      "grad_norm": 1.846451759338379,
      "learning_rate": 0.00031543624161073825,
      "loss": 2.1208,
      "step": 281
    },
    {
      "epoch": 0.752,
      "grad_norm": 2.23952317237854,
      "learning_rate": 0.00031476510067114096,
      "loss": 2.1114,
      "step": 282
    },
    {
      "epoch": 0.7546666666666667,
      "grad_norm": 2.0379295349121094,
      "learning_rate": 0.00031409395973154363,
      "loss": 2.1716,
      "step": 283
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 1.8898409605026245,
      "learning_rate": 0.00031342281879194635,
      "loss": 2.16,
      "step": 284
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8317655324935913,
      "learning_rate": 0.00031275167785234896,
      "loss": 2.0841,
      "step": 285
    }
  ],
  "logging_steps": 1,
  "max_steps": 750,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9.7991000064e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}