{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.6644518272425249,
  "eval_steps": 25,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008859357696566999,
      "grad_norm": 10.282384872436523,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 2.3774,
      "step": 1
    },
    {
      "epoch": 0.008859357696566999,
      "eval_loss": 0.4578593969345093,
      "eval_runtime": 32.6988,
      "eval_samples_per_second": 2.905,
      "eval_steps_per_second": 1.468,
      "step": 1
    },
    {
      "epoch": 0.017718715393133997,
      "grad_norm": 10.4387788772583,
      "learning_rate": 6.666666666666667e-05,
      "loss": 2.6036,
      "step": 2
    },
    {
      "epoch": 0.026578073089700997,
      "grad_norm": 10.090304374694824,
      "learning_rate": 0.0001,
      "loss": 1.8095,
      "step": 3
    },
    {
      "epoch": 0.035437430786267994,
      "grad_norm": 9.6649808883667,
      "learning_rate": 9.99524110790929e-05,
      "loss": 1.6976,
      "step": 4
    },
    {
      "epoch": 0.044296788482835,
      "grad_norm": 10.416516304016113,
      "learning_rate": 9.980973490458728e-05,
      "loss": 1.4104,
      "step": 5
    },
    {
      "epoch": 0.053156146179401995,
      "grad_norm": 8.030714988708496,
      "learning_rate": 9.957224306869053e-05,
      "loss": 0.9224,
      "step": 6
    },
    {
      "epoch": 0.06201550387596899,
      "grad_norm": 9.158958435058594,
      "learning_rate": 9.924038765061042e-05,
      "loss": 1.0338,
      "step": 7
    },
    {
      "epoch": 0.07087486157253599,
      "grad_norm": 10.988117218017578,
      "learning_rate": 9.881480035599667e-05,
      "loss": 1.9548,
      "step": 8
    },
    {
      "epoch": 0.07973421926910298,
      "grad_norm": 8.427650451660156,
      "learning_rate": 9.829629131445342e-05,
      "loss": 1.1079,
      "step": 9
    },
    {
      "epoch": 0.08859357696567,
      "grad_norm": 8.841338157653809,
      "learning_rate": 9.768584753741134e-05,
      "loss": 1.8842,
      "step": 10
    },
    {
      "epoch": 0.09745293466223699,
      "grad_norm": 8.063060760498047,
      "learning_rate": 9.698463103929542e-05,
      "loss": 1.3119,
      "step": 11
    },
    {
      "epoch": 0.10631229235880399,
      "grad_norm": 13.610594749450684,
      "learning_rate": 9.619397662556435e-05,
      "loss": 3.4325,
      "step": 12
    },
    {
      "epoch": 0.11517165005537099,
      "grad_norm": 7.284789562225342,
      "learning_rate": 9.53153893518325e-05,
      "loss": 1.4195,
      "step": 13
    },
    {
      "epoch": 0.12403100775193798,
      "grad_norm": 6.768807888031006,
      "learning_rate": 9.435054165891109e-05,
      "loss": 1.0552,
      "step": 14
    },
    {
      "epoch": 0.132890365448505,
      "grad_norm": 7.928319454193115,
      "learning_rate": 9.330127018922194e-05,
      "loss": 1.2176,
      "step": 15
    },
    {
      "epoch": 0.14174972314507198,
      "grad_norm": 8.217719078063965,
      "learning_rate": 9.21695722906443e-05,
      "loss": 1.6128,
      "step": 16
    },
    {
      "epoch": 0.150609080841639,
      "grad_norm": 19.084928512573242,
      "learning_rate": 9.09576022144496e-05,
      "loss": 1.9317,
      "step": 17
    },
    {
      "epoch": 0.15946843853820597,
      "grad_norm": 15.333611488342285,
      "learning_rate": 8.966766701456177e-05,
      "loss": 1.9728,
      "step": 18
    },
    {
      "epoch": 0.16832779623477298,
      "grad_norm": 12.080218315124512,
      "learning_rate": 8.83022221559489e-05,
      "loss": 1.5498,
      "step": 19
    },
    {
      "epoch": 0.17718715393134,
      "grad_norm": 12.198057174682617,
      "learning_rate": 8.68638668405062e-05,
      "loss": 2.8962,
      "step": 20
    },
    {
      "epoch": 0.18604651162790697,
      "grad_norm": 12.76229476928711,
      "learning_rate": 8.535533905932738e-05,
      "loss": 2.3625,
      "step": 21
    },
    {
      "epoch": 0.19490586932447398,
      "grad_norm": 10.231610298156738,
      "learning_rate": 8.377951038078302e-05,
      "loss": 1.7069,
      "step": 22
    },
    {
      "epoch": 0.20376522702104097,
      "grad_norm": 9.231905937194824,
      "learning_rate": 8.213938048432697e-05,
      "loss": 1.7236,
      "step": 23
    },
    {
      "epoch": 0.21262458471760798,
      "grad_norm": 12.690796852111816,
      "learning_rate": 8.043807145043604e-05,
      "loss": 1.6465,
      "step": 24
    },
    {
      "epoch": 0.22148394241417496,
      "grad_norm": 8.044271469116211,
      "learning_rate": 7.86788218175523e-05,
      "loss": 1.3221,
      "step": 25
    },
    {
      "epoch": 0.22148394241417496,
      "eval_loss": 0.17975519597530365,
      "eval_runtime": 33.0538,
      "eval_samples_per_second": 2.874,
      "eval_steps_per_second": 1.452,
      "step": 25
    },
    {
      "epoch": 0.23034330011074197,
      "grad_norm": 9.847829818725586,
      "learning_rate": 7.68649804173412e-05,
      "loss": 1.8953,
      "step": 26
    },
    {
      "epoch": 0.23920265780730898,
      "grad_norm": 12.596794128417969,
      "learning_rate": 7.500000000000001e-05,
      "loss": 2.5057,
      "step": 27
    },
    {
      "epoch": 0.24806201550387597,
      "grad_norm": 14.005389213562012,
      "learning_rate": 7.308743066175172e-05,
      "loss": 2.6737,
      "step": 28
    },
    {
      "epoch": 0.25692137320044295,
      "grad_norm": 6.553339004516602,
      "learning_rate": 7.113091308703498e-05,
      "loss": 1.1646,
      "step": 29
    },
    {
      "epoch": 0.26578073089701,
      "grad_norm": 7.477066516876221,
      "learning_rate": 6.91341716182545e-05,
      "loss": 1.5723,
      "step": 30
    },
    {
      "epoch": 0.27464008859357697,
      "grad_norm": 6.714325428009033,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.9372,
      "step": 31
    },
    {
      "epoch": 0.28349944629014395,
      "grad_norm": 5.366620063781738,
      "learning_rate": 6.503528997521366e-05,
      "loss": 0.9127,
      "step": 32
    },
    {
      "epoch": 0.292358803986711,
      "grad_norm": 5.267599582672119,
      "learning_rate": 6.294095225512603e-05,
      "loss": 0.9486,
      "step": 33
    },
    {
      "epoch": 0.301218161683278,
      "grad_norm": 5.721604824066162,
      "learning_rate": 6.0821980696905146e-05,
      "loss": 1.0115,
      "step": 34
    },
    {
      "epoch": 0.31007751937984496,
      "grad_norm": 9.588211059570312,
      "learning_rate": 5.868240888334653e-05,
      "loss": 1.5512,
      "step": 35
    },
    {
      "epoch": 0.31893687707641194,
      "grad_norm": 8.468229293823242,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 2.0242,
      "step": 36
    },
    {
      "epoch": 0.327796234772979,
      "grad_norm": 7.019147872924805,
      "learning_rate": 5.435778713738292e-05,
      "loss": 1.4333,
      "step": 37
    },
    {
      "epoch": 0.33665559246954596,
      "grad_norm": 7.140212535858154,
      "learning_rate": 5.218096936826681e-05,
      "loss": 1.4574,
      "step": 38
    },
    {
      "epoch": 0.34551495016611294,
      "grad_norm": 7.104815483093262,
      "learning_rate": 5e-05,
      "loss": 1.6285,
      "step": 39
    },
    {
      "epoch": 0.35437430786268,
      "grad_norm": 7.665496349334717,
      "learning_rate": 4.781903063173321e-05,
      "loss": 1.7756,
      "step": 40
    },
    {
      "epoch": 0.36323366555924697,
      "grad_norm": 5.0741448402404785,
      "learning_rate": 4.564221286261709e-05,
      "loss": 0.7064,
      "step": 41
    },
    {
      "epoch": 0.37209302325581395,
      "grad_norm": 6.9342145919799805,
      "learning_rate": 4.347369038899744e-05,
      "loss": 1.5397,
      "step": 42
    },
    {
      "epoch": 0.38095238095238093,
      "grad_norm": 11.797982215881348,
      "learning_rate": 4.131759111665349e-05,
      "loss": 1.0307,
      "step": 43
    },
    {
      "epoch": 0.38981173864894797,
      "grad_norm": 8.055065155029297,
      "learning_rate": 3.917801930309486e-05,
      "loss": 1.4454,
      "step": 44
    },
    {
      "epoch": 0.39867109634551495,
      "grad_norm": 6.281280040740967,
      "learning_rate": 3.705904774487396e-05,
      "loss": 1.0751,
      "step": 45
    },
    {
      "epoch": 0.40753045404208194,
      "grad_norm": 7.641656875610352,
      "learning_rate": 3.4964710024786354e-05,
      "loss": 0.9188,
      "step": 46
    },
    {
      "epoch": 0.416389811738649,
      "grad_norm": 6.952744960784912,
      "learning_rate": 3.289899283371657e-05,
      "loss": 1.0005,
      "step": 47
    },
    {
      "epoch": 0.42524916943521596,
      "grad_norm": 8.935934066772461,
      "learning_rate": 3.086582838174551e-05,
      "loss": 2.0907,
      "step": 48
    },
    {
      "epoch": 0.43410852713178294,
      "grad_norm": 6.720633506774902,
      "learning_rate": 2.886908691296504e-05,
      "loss": 0.9396,
      "step": 49
    },
    {
      "epoch": 0.4429678848283499,
      "grad_norm": 7.035938262939453,
      "learning_rate": 2.6912569338248315e-05,
      "loss": 1.2922,
      "step": 50
    },
    {
      "epoch": 0.4429678848283499,
      "eval_loss": 0.16461199522018433,
      "eval_runtime": 33.0376,
      "eval_samples_per_second": 2.876,
      "eval_steps_per_second": 1.453,
      "step": 50
    },
    {
      "epoch": 0.45182724252491696,
      "grad_norm": 7.110604763031006,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.2156,
      "step": 51
    },
    {
      "epoch": 0.46068660022148394,
      "grad_norm": 11.897268295288086,
      "learning_rate": 2.3135019582658802e-05,
      "loss": 2.9007,
      "step": 52
    },
    {
      "epoch": 0.4695459579180509,
      "grad_norm": 13.057817459106445,
      "learning_rate": 2.132117818244771e-05,
      "loss": 2.002,
      "step": 53
    },
    {
      "epoch": 0.47840531561461797,
      "grad_norm": 33.48012924194336,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 1.78,
      "step": 54
    },
    {
      "epoch": 0.48726467331118495,
      "grad_norm": 12.036636352539062,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 2.3839,
      "step": 55
    },
    {
      "epoch": 0.49612403100775193,
      "grad_norm": 14.421751976013184,
      "learning_rate": 1.622048961921699e-05,
      "loss": 2.0987,
      "step": 56
    },
    {
      "epoch": 0.5049833887043189,
      "grad_norm": 4.778162002563477,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 1.4264,
      "step": 57
    },
    {
      "epoch": 0.5138427464008859,
      "grad_norm": 4.118379592895508,
      "learning_rate": 1.3136133159493802e-05,
      "loss": 0.6587,
      "step": 58
    },
    {
      "epoch": 0.5227021040974529,
      "grad_norm": 5.660857677459717,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 1.4942,
      "step": 59
    },
    {
      "epoch": 0.53156146179402,
      "grad_norm": 6.020554065704346,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 1.3698,
      "step": 60
    },
    {
      "epoch": 0.540420819490587,
      "grad_norm": 4.333651065826416,
      "learning_rate": 9.042397785550405e-06,
      "loss": 1.0231,
      "step": 61
    },
    {
      "epoch": 0.5492801771871539,
      "grad_norm": 4.257166862487793,
      "learning_rate": 7.830427709355725e-06,
      "loss": 0.7315,
      "step": 62
    },
    {
      "epoch": 0.5581395348837209,
      "grad_norm": 4.766343593597412,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.9981,
      "step": 63
    },
    {
      "epoch": 0.5669988925802879,
      "grad_norm": 6.86870002746582,
      "learning_rate": 5.649458341088915e-06,
      "loss": 1.755,
      "step": 64
    },
    {
      "epoch": 0.5758582502768549,
      "grad_norm": 5.589112758636475,
      "learning_rate": 4.684610648167503e-06,
      "loss": 1.2156,
      "step": 65
    },
    {
      "epoch": 0.584717607973422,
      "grad_norm": 4.641630172729492,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 1.0218,
      "step": 66
    },
    {
      "epoch": 0.593576965669989,
      "grad_norm": 4.352156162261963,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.7238,
      "step": 67
    },
    {
      "epoch": 0.602436323366556,
      "grad_norm": 6.274971961975098,
      "learning_rate": 2.314152462588659e-06,
      "loss": 1.115,
      "step": 68
    },
    {
      "epoch": 0.6112956810631229,
      "grad_norm": 4.748111248016357,
      "learning_rate": 1.70370868554659e-06,
      "loss": 0.8593,
      "step": 69
    },
    {
      "epoch": 0.6201550387596899,
      "grad_norm": 7.396561622619629,
      "learning_rate": 1.1851996440033319e-06,
      "loss": 1.2128,
      "step": 70
    },
    {
      "epoch": 0.6290143964562569,
      "grad_norm": 9.86874008178711,
      "learning_rate": 7.596123493895991e-07,
      "loss": 1.2177,
      "step": 71
    },
    {
      "epoch": 0.6378737541528239,
      "grad_norm": 8.11063003540039,
      "learning_rate": 4.277569313094809e-07,
      "loss": 1.5982,
      "step": 72
    },
    {
      "epoch": 0.646733111849391,
      "grad_norm": 7.7454729080200195,
      "learning_rate": 1.9026509541272275e-07,
      "loss": 1.5252,
      "step": 73
    },
    {
      "epoch": 0.655592469545958,
      "grad_norm": 6.750486850738525,
      "learning_rate": 4.7588920907110094e-08,
      "loss": 1.6062,
      "step": 74
    },
    {
      "epoch": 0.6644518272425249,
      "grad_norm": 12.320877075195312,
      "learning_rate": 0.0,
      "loss": 2.2862,
      "step": 75
    },
    {
      "epoch": 0.6644518272425249,
      "eval_loss": 0.16002579033374786,
      "eval_runtime": 33.0878,
      "eval_samples_per_second": 2.871,
      "eval_steps_per_second": 1.451,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.060879000928256e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}