{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.01210452255223858,
  "eval_steps": 100,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 3.026130638059645e-05,
      "eval_loss": 5.225593566894531,
      "eval_runtime": 1056.9,
      "eval_samples_per_second": 13.165,
      "eval_steps_per_second": 6.582,
      "step": 1
    },
    {
      "epoch": 0.00015130653190298225,
      "grad_norm": 0.788815438747406,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 4.957,
      "step": 5
    },
    {
      "epoch": 0.0003026130638059645,
      "grad_norm": 0.8859617114067078,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 4.7113,
      "step": 10
    },
    {
      "epoch": 0.00045391959570894675,
      "grad_norm": 1.2779064178466797,
      "learning_rate": 5e-05,
      "loss": 5.0815,
      "step": 15
    },
    {
      "epoch": 0.000605226127611929,
      "grad_norm": 1.9360402822494507,
      "learning_rate": 6.666666666666667e-05,
      "loss": 5.1496,
      "step": 20
    },
    {
      "epoch": 0.0007565326595149113,
      "grad_norm": 1.3171921968460083,
      "learning_rate": 8.333333333333334e-05,
      "loss": 4.4941,
      "step": 25
    },
    {
      "epoch": 0.0009078391914178935,
      "grad_norm": 1.5491387844085693,
      "learning_rate": 0.0001,
      "loss": 4.2339,
      "step": 30
    },
    {
      "epoch": 0.0010591457233208757,
      "grad_norm": 1.658339500427246,
      "learning_rate": 9.995494831023409e-05,
      "loss": 4.0419,
      "step": 35
    },
    {
      "epoch": 0.001210452255223858,
      "grad_norm": 1.9180099964141846,
      "learning_rate": 9.981987442712633e-05,
      "loss": 3.4763,
      "step": 40
    },
    {
      "epoch": 0.0013617587871268403,
      "grad_norm": 3.1623449325561523,
      "learning_rate": 9.959502176294383e-05,
      "loss": 3.6368,
      "step": 45
    },
    {
      "epoch": 0.0015130653190298226,
      "grad_norm": 3.263261318206787,
      "learning_rate": 9.928079551738543e-05,
      "loss": 3.2767,
      "step": 50
    },
    {
      "epoch": 0.0016643718509328047,
      "grad_norm": 2.0837767124176025,
      "learning_rate": 9.887776194738432e-05,
      "loss": 3.3314,
      "step": 55
    },
    {
      "epoch": 0.001815678382835787,
      "grad_norm": 2.2642500400543213,
      "learning_rate": 9.838664734667495e-05,
      "loss": 3.1587,
      "step": 60
    },
    {
      "epoch": 0.0019669849147387693,
      "grad_norm": 2.2424845695495605,
      "learning_rate": 9.780833673696254e-05,
      "loss": 3.2527,
      "step": 65
    },
    {
      "epoch": 0.0021182914466417514,
      "grad_norm": 2.265158176422119,
      "learning_rate": 9.714387227305422e-05,
      "loss": 3.1288,
      "step": 70
    },
    {
      "epoch": 0.002269597978544734,
      "grad_norm": 2.1111230850219727,
      "learning_rate": 9.639445136482548e-05,
      "loss": 3.092,
      "step": 75
    },
    {
      "epoch": 0.002420904510447716,
      "grad_norm": 2.2810521125793457,
      "learning_rate": 9.55614245194068e-05,
      "loss": 3.1967,
      "step": 80
    },
    {
      "epoch": 0.002572211042350698,
      "grad_norm": 1.922995924949646,
      "learning_rate": 9.464629290747842e-05,
      "loss": 2.9818,
      "step": 85
    },
    {
      "epoch": 0.0027235175742536806,
      "grad_norm": 1.7622549533843994,
      "learning_rate": 9.365070565805941e-05,
      "loss": 2.8943,
      "step": 90
    },
    {
      "epoch": 0.0028748241061566627,
      "grad_norm": 2.0731263160705566,
      "learning_rate": 9.257645688666556e-05,
      "loss": 2.9056,
      "step": 95
    },
    {
      "epoch": 0.003026130638059645,
      "grad_norm": 2.959773063659668,
      "learning_rate": 9.142548246219212e-05,
      "loss": 2.6247,
      "step": 100
    },
    {
      "epoch": 0.003026130638059645,
      "eval_loss": 3.0097150802612305,
      "eval_runtime": 1061.4161,
      "eval_samples_per_second": 13.109,
      "eval_steps_per_second": 6.554,
      "step": 100
    },
    {
      "epoch": 0.0031774371699626273,
      "grad_norm": 3.566758632659912,
      "learning_rate": 9.019985651834703e-05,
      "loss": 3.288,
      "step": 105
    },
    {
      "epoch": 0.0033287437018656094,
      "grad_norm": 2.340667247772217,
      "learning_rate": 8.890178771592199e-05,
      "loss": 3.0083,
      "step": 110
    },
    {
      "epoch": 0.003480050233768592,
      "grad_norm": 2.187697410583496,
      "learning_rate": 8.753361526263621e-05,
      "loss": 2.8639,
      "step": 115
    },
    {
      "epoch": 0.003631356765671574,
      "grad_norm": 3.099801778793335,
      "learning_rate": 8.609780469772623e-05,
      "loss": 3.2997,
      "step": 120
    },
    {
      "epoch": 0.0037826632975745565,
      "grad_norm": 2.325072765350342,
      "learning_rate": 8.459694344887732e-05,
      "loss": 2.8445,
      "step": 125
    },
    {
      "epoch": 0.003933969829477539,
      "grad_norm": 2.094461441040039,
      "learning_rate": 8.303373616950408e-05,
      "loss": 2.8378,
      "step": 130
    },
    {
      "epoch": 0.004085276361380521,
      "grad_norm": 1.8089193105697632,
      "learning_rate": 8.141099986478212e-05,
      "loss": 2.7992,
      "step": 135
    },
    {
      "epoch": 0.004236582893283503,
      "grad_norm": 2.6586811542510986,
      "learning_rate": 7.973165881521434e-05,
      "loss": 2.9878,
      "step": 140
    },
    {
      "epoch": 0.004387889425186486,
      "grad_norm": 2.5426809787750244,
      "learning_rate": 7.799873930687978e-05,
      "loss": 3.0473,
      "step": 145
    },
    {
      "epoch": 0.004539195957089468,
      "grad_norm": 3.101102113723755,
      "learning_rate": 7.621536417786159e-05,
      "loss": 2.2432,
      "step": 150
    },
    {
      "epoch": 0.00469050248899245,
      "grad_norm": 2.7906789779663086,
      "learning_rate": 7.438474719068173e-05,
      "loss": 3.3449,
      "step": 155
    },
    {
      "epoch": 0.004841809020895432,
      "grad_norm": 2.0420618057250977,
      "learning_rate": 7.251018724088367e-05,
      "loss": 2.9498,
      "step": 160
    },
    {
      "epoch": 0.004993115552798414,
      "grad_norm": 2.229079484939575,
      "learning_rate": 7.059506241219965e-05,
      "loss": 3.0023,
      "step": 165
    },
    {
      "epoch": 0.005144422084701396,
      "grad_norm": 2.2916455268859863,
      "learning_rate": 6.864282388901544e-05,
      "loss": 2.8885,
      "step": 170
    },
    {
      "epoch": 0.005295728616604379,
      "grad_norm": 2.237335205078125,
      "learning_rate": 6.665698973710288e-05,
      "loss": 3.1785,
      "step": 175
    },
    {
      "epoch": 0.005447035148507361,
      "grad_norm": 2.0392656326293945,
      "learning_rate": 6.464113856382752e-05,
      "loss": 2.7696,
      "step": 180
    },
    {
      "epoch": 0.005598341680410343,
      "grad_norm": 2.1961615085601807,
      "learning_rate": 6.259890306925627e-05,
      "loss": 2.9769,
      "step": 185
    },
    {
      "epoch": 0.005749648212313325,
      "grad_norm": 2.234666585922241,
      "learning_rate": 6.0533963499786314e-05,
      "loss": 2.7453,
      "step": 190
    },
    {
      "epoch": 0.005900954744216307,
      "grad_norm": 2.278710126876831,
      "learning_rate": 5.8450041016092464e-05,
      "loss": 2.8001,
      "step": 195
    },
    {
      "epoch": 0.00605226127611929,
      "grad_norm": 3.533163547515869,
      "learning_rate": 5.6350890987343944e-05,
      "loss": 2.1511,
      "step": 200
    },
    {
      "epoch": 0.00605226127611929,
      "eval_loss": 2.7880940437316895,
      "eval_runtime": 1060.1371,
      "eval_samples_per_second": 13.125,
      "eval_steps_per_second": 6.562,
      "step": 200
    },
    {
      "epoch": 0.0062035678080222725,
      "grad_norm": 2.35955548286438,
      "learning_rate": 5.4240296223775465e-05,
      "loss": 2.9185,
      "step": 205
    },
    {
      "epoch": 0.0063548743399252546,
      "grad_norm": 2.1291298866271973,
      "learning_rate": 5.212206015980742e-05,
      "loss": 3.0118,
      "step": 210
    },
    {
      "epoch": 0.006506180871828237,
      "grad_norm": 2.0680952072143555,
      "learning_rate": 5e-05,
      "loss": 2.7762,
      "step": 215
    },
    {
      "epoch": 0.006657487403731219,
      "grad_norm": 2.3164191246032715,
      "learning_rate": 4.78779398401926e-05,
      "loss": 2.9072,
      "step": 220
    },
    {
      "epoch": 0.006808793935634202,
      "grad_norm": 2.2106404304504395,
      "learning_rate": 4.575970377622456e-05,
      "loss": 2.8217,
      "step": 225
    },
    {
      "epoch": 0.006960100467537184,
      "grad_norm": 2.1488864421844482,
      "learning_rate": 4.364910901265606e-05,
      "loss": 2.6756,
      "step": 230
    },
    {
      "epoch": 0.007111406999440166,
      "grad_norm": 2.468559980392456,
      "learning_rate": 4.1549958983907555e-05,
      "loss": 2.8864,
      "step": 235
    },
    {
      "epoch": 0.007262713531343148,
      "grad_norm": 2.5122365951538086,
      "learning_rate": 3.94660365002137e-05,
      "loss": 2.6841,
      "step": 240
    },
    {
      "epoch": 0.00741402006324613,
      "grad_norm": 2.6824402809143066,
      "learning_rate": 3.740109693074375e-05,
      "loss": 2.5004,
      "step": 245
    },
    {
      "epoch": 0.007565326595149113,
      "grad_norm": 3.756167411804199,
      "learning_rate": 3.5358861436172485e-05,
      "loss": 2.0367,
      "step": 250
    },
    {
      "epoch": 0.007716633127052095,
      "grad_norm": 2.627948760986328,
      "learning_rate": 3.334301026289712e-05,
      "loss": 2.9824,
      "step": 255
    },
    {
      "epoch": 0.007867939658955077,
      "grad_norm": 2.1773688793182373,
      "learning_rate": 3.135717611098458e-05,
      "loss": 2.7656,
      "step": 260
    },
    {
      "epoch": 0.00801924619085806,
      "grad_norm": 2.8805949687957764,
      "learning_rate": 2.9404937587800375e-05,
      "loss": 2.8401,
      "step": 265
    },
    {
      "epoch": 0.008170552722761041,
      "grad_norm": 2.714918613433838,
      "learning_rate": 2.748981275911633e-05,
      "loss": 2.8331,
      "step": 270
    },
    {
      "epoch": 0.008321859254664023,
      "grad_norm": 2.217379093170166,
      "learning_rate": 2.5615252809318284e-05,
      "loss": 2.6719,
      "step": 275
    },
    {
      "epoch": 0.008473165786567005,
      "grad_norm": 3.201310396194458,
      "learning_rate": 2.3784635822138424e-05,
      "loss": 2.8424,
      "step": 280
    },
    {
      "epoch": 0.008624472318469988,
      "grad_norm": 2.5300350189208984,
      "learning_rate": 2.2001260693120233e-05,
      "loss": 2.6543,
      "step": 285
    },
    {
      "epoch": 0.008775778850372971,
      "grad_norm": 1.974187970161438,
      "learning_rate": 2.026834118478567e-05,
      "loss": 2.6333,
      "step": 290
    },
    {
      "epoch": 0.008927085382275953,
      "grad_norm": 2.512000322341919,
      "learning_rate": 1.858900013521788e-05,
      "loss": 2.5506,
      "step": 295
    },
    {
      "epoch": 0.009078391914178936,
      "grad_norm": 3.4528815746307373,
      "learning_rate": 1.6966263830495936e-05,
      "loss": 2.3128,
      "step": 300
    },
    {
      "epoch": 0.009078391914178936,
      "eval_loss": 2.7070584297180176,
      "eval_runtime": 1060.7155,
      "eval_samples_per_second": 13.118,
      "eval_steps_per_second": 6.559,
      "step": 300
    },
    {
      "epoch": 0.009229698446081918,
      "grad_norm": 2.3269612789154053,
      "learning_rate": 1.5403056551122697e-05,
      "loss": 3.0393,
      "step": 305
    },
    {
      "epoch": 0.0093810049779849,
      "grad_norm": 2.3745312690734863,
      "learning_rate": 1.3902195302273779e-05,
      "loss": 2.6188,
      "step": 310
    },
    {
      "epoch": 0.009532311509887882,
      "grad_norm": 2.3310303688049316,
      "learning_rate": 1.246638473736378e-05,
      "loss": 2.6137,
      "step": 315
    },
    {
      "epoch": 0.009683618041790864,
      "grad_norm": 2.3575851917266846,
      "learning_rate": 1.1098212284078036e-05,
      "loss": 2.8783,
      "step": 320
    },
    {
      "epoch": 0.009834924573693846,
      "grad_norm": 2.8718862533569336,
      "learning_rate": 9.800143481652979e-06,
      "loss": 2.7183,
      "step": 325
    },
    {
      "epoch": 0.009986231105596828,
      "grad_norm": 2.3252153396606445,
      "learning_rate": 8.574517537807897e-06,
      "loss": 2.6825,
      "step": 330
    },
    {
      "epoch": 0.01013753763749981,
      "grad_norm": 5.962464809417725,
      "learning_rate": 7.423543113334436e-06,
      "loss": 2.7628,
      "step": 335
    },
    {
      "epoch": 0.010288844169402792,
      "grad_norm": 2.2212114334106445,
      "learning_rate": 6.349294341940593e-06,
      "loss": 2.8964,
      "step": 340
    },
    {
      "epoch": 0.010440150701305776,
      "grad_norm": 2.4221904277801514,
      "learning_rate": 5.353707092521582e-06,
      "loss": 2.5754,
      "step": 345
    },
    {
      "epoch": 0.010591457233208758,
      "grad_norm": 3.5839321613311768,
      "learning_rate": 4.43857548059321e-06,
      "loss": 2.1278,
      "step": 350
    },
    {
      "epoch": 0.01074276376511174,
      "grad_norm": 2.474534034729004,
      "learning_rate": 3.605548635174533e-06,
      "loss": 2.7578,
      "step": 355
    },
    {
      "epoch": 0.010894070297014722,
      "grad_norm": 2.2095589637756348,
      "learning_rate": 2.85612772694579e-06,
      "loss": 2.7148,
      "step": 360
    },
    {
      "epoch": 0.011045376828917704,
      "grad_norm": 2.4250285625457764,
      "learning_rate": 2.191663263037458e-06,
      "loss": 2.946,
      "step": 365
    },
    {
      "epoch": 0.011196683360820687,
      "grad_norm": 1.982805609703064,
      "learning_rate": 1.6133526533250565e-06,
      "loss": 2.4775,
      "step": 370
    },
    {
      "epoch": 0.011347989892723669,
      "grad_norm": 2.5932719707489014,
      "learning_rate": 1.1222380526156928e-06,
      "loss": 2.7727,
      "step": 375
    },
    {
      "epoch": 0.01149929642462665,
      "grad_norm": 2.1536011695861816,
      "learning_rate": 7.192044826145771e-07,
      "loss": 2.6942,
      "step": 380
    },
    {
      "epoch": 0.011650602956529633,
      "grad_norm": 2.2299444675445557,
      "learning_rate": 4.049782370561583e-07,
      "loss": 2.8802,
      "step": 385
    },
    {
      "epoch": 0.011801909488432615,
      "grad_norm": 2.1532130241394043,
      "learning_rate": 1.8012557287367392e-07,
      "loss": 2.554,
      "step": 390
    },
    {
      "epoch": 0.011953216020335599,
      "grad_norm": 3.1186575889587402,
      "learning_rate": 4.5051689765929214e-08,
      "loss": 2.7916,
      "step": 395
    },
    {
      "epoch": 0.01210452255223858,
      "grad_norm": 2.718445062637329,
      "learning_rate": 0.0,
      "loss": 1.8957,
      "step": 400
    },
    {
      "epoch": 0.01210452255223858,
      "eval_loss": 2.6708054542541504,
      "eval_runtime": 1061.1505,
      "eval_samples_per_second": 13.112,
      "eval_steps_per_second": 6.556,
      "step": 400
    }
  ],
  "logging_steps": 5,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.303192667160576e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}