{ "best_global_step": 100, "best_metric": 2.744743585586548, "best_model_checkpoint": null, "epoch": 0.44, "eval_steps": 100, "global_step": 165, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 18.99793815612793, "learning_rate": 0.0, "loss": 2.8968, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 11.996694564819336, "learning_rate": 0.0001, "loss": 2.7216, "step": 2 }, { "epoch": 0.008, "grad_norm": 13.868853569030762, "learning_rate": 0.0002, "loss": 2.7594, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 11.259204864501953, "learning_rate": 0.0003, "loss": 2.763, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 7.20668888092041, "learning_rate": 0.0004, "loss": 2.6533, "step": 5 }, { "epoch": 0.016, "grad_norm": 6.761629581451416, "learning_rate": 0.0005, "loss": 2.5771, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 5.149209499359131, "learning_rate": 0.0004993288590604027, "loss": 2.4775, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 5.3045172691345215, "learning_rate": 0.0004986577181208054, "loss": 2.4258, "step": 8 }, { "epoch": 0.024, "grad_norm": 4.353558540344238, "learning_rate": 0.0004979865771812081, "loss": 2.3734, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 6.34622049331665, "learning_rate": 0.0004973154362416108, "loss": 2.4293, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 4.698485374450684, "learning_rate": 0.0004966442953020134, "loss": 2.2754, "step": 11 }, { "epoch": 0.032, "grad_norm": 4.4563679695129395, "learning_rate": 0.0004959731543624161, "loss": 2.3387, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 4.204184532165527, "learning_rate": 0.0004953020134228188, "loss": 2.274, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 4.6718525886535645, "learning_rate": 0.0004946308724832214, "loss": 2.3, "step": 14 }, { "epoch": 0.04, "grad_norm": 3.200247287750244, "learning_rate": 0.0004939597315436242, "loss": 2.1972, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 2.496098518371582, "learning_rate": 0.0004932885906040269, "loss": 2.2999, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 2.854609727859497, "learning_rate": 0.0004926174496644296, "loss": 2.2374, "step": 17 }, { "epoch": 0.048, "grad_norm": 3.2290594577789307, "learning_rate": 0.0004919463087248322, "loss": 2.2791, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 3.2531440258026123, "learning_rate": 0.0004912751677852349, "loss": 2.2158, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 2.5142836570739746, "learning_rate": 0.0004906040268456376, "loss": 2.2618, "step": 20 }, { "epoch": 0.056, "grad_norm": 2.7063865661621094, "learning_rate": 0.0004899328859060403, "loss": 2.3427, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 2.894263744354248, "learning_rate": 0.000489261744966443, "loss": 2.2904, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 2.6508796215057373, "learning_rate": 0.0004885906040268456, "loss": 2.2185, "step": 23 }, { "epoch": 0.064, "grad_norm": 4.005720138549805, "learning_rate": 0.0004879194630872483, "loss": 2.1725, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 2.0936405658721924, "learning_rate": 0.000487248322147651, "loss": 2.1567, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 2.376448154449463, "learning_rate": 0.00048657718120805374, "loss": 2.3067, "step": 26 }, { "epoch": 0.072, "grad_norm": 2.433168649673462, "learning_rate": 0.00048590604026845635, "loss": 2.414, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 2.4113612174987793, "learning_rate": 0.0004852348993288591, "loss": 2.1622, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 2.300220251083374, "learning_rate": 0.00048456375838926174, "loss": 2.1799, "step": 29 }, { "epoch": 0.08, "grad_norm": 2.567547559738159, "learning_rate": 0.00048389261744966446, "loss": 2.313, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 2.345918893814087, "learning_rate": 0.0004832214765100671, "loss": 2.2494, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 2.4843552112579346, "learning_rate": 0.0004825503355704698, "loss": 2.1966, "step": 32 }, { "epoch": 0.088, "grad_norm": 2.4805150032043457, "learning_rate": 0.0004818791946308725, "loss": 2.1327, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 2.462193250656128, "learning_rate": 0.00048120805369127517, "loss": 2.2231, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 2.927288055419922, "learning_rate": 0.0004805369127516779, "loss": 2.1488, "step": 35 }, { "epoch": 0.096, "grad_norm": 3.126699686050415, "learning_rate": 0.0004798657718120805, "loss": 2.1518, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 2.0917441844940186, "learning_rate": 0.0004791946308724832, "loss": 2.1736, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 2.16457462310791, "learning_rate": 0.00047852348993288594, "loss": 2.1238, "step": 38 }, { "epoch": 0.104, "grad_norm": 2.4035158157348633, "learning_rate": 0.0004778523489932886, "loss": 2.2164, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 2.58906626701355, "learning_rate": 0.0004771812080536913, "loss": 2.1475, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 2.1741342544555664, "learning_rate": 0.00047651006711409394, "loss": 2.11, "step": 41 }, { "epoch": 0.112, "grad_norm": 2.265110969543457, "learning_rate": 0.00047583892617449665, "loss": 2.1681, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 2.3968636989593506, "learning_rate": 0.0004751677852348993, "loss": 2.2262, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 2.332958698272705, "learning_rate": 0.00047449664429530204, "loss": 2.2378, "step": 44 }, { "epoch": 0.12, "grad_norm": 1.9767862558364868, "learning_rate": 0.00047382550335570476, "loss": 2.1622, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 2.2687995433807373, "learning_rate": 0.00047315436241610737, "loss": 2.2024, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 1.9566984176635742, "learning_rate": 0.0004724832214765101, "loss": 2.094, "step": 47 }, { "epoch": 0.128, "grad_norm": 3.261591911315918, "learning_rate": 0.00047181208053691275, "loss": 2.0753, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 2.3279614448547363, "learning_rate": 0.00047114093959731547, "loss": 2.1862, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 1.9362128973007202, "learning_rate": 0.0004704697986577181, "loss": 2.1482, "step": 50 }, { "epoch": 0.136, "grad_norm": 2.4454574584960938, "learning_rate": 0.0004697986577181208, "loss": 2.1528, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 1.8882256746292114, "learning_rate": 0.0004691275167785235, "loss": 2.0805, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 1.9548041820526123, "learning_rate": 0.0004684563758389262, "loss": 2.1315, "step": 53 }, { "epoch": 0.144, "grad_norm": 2.049616575241089, "learning_rate": 0.0004677852348993289, "loss": 2.1819, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 2.2909982204437256, "learning_rate": 0.0004671140939597315, "loss": 2.1856, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 2.1005330085754395, "learning_rate": 0.00046644295302013423, "loss": 2.0906, "step": 56 }, { "epoch": 0.152, "grad_norm": 2.2690324783325195, "learning_rate": 0.00046577181208053695, "loss": 2.1937, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 2.1487715244293213, "learning_rate": 0.0004651006711409396, "loss": 2.1735, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 2.1271591186523438, "learning_rate": 0.0004644295302013423, "loss": 2.1865, "step": 59 }, { "epoch": 0.16, "grad_norm": 1.9822970628738403, "learning_rate": 0.00046375838926174495, "loss": 2.1503, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 2.2608866691589355, "learning_rate": 0.00046308724832214767, "loss": 2.2522, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 2.4626386165618896, "learning_rate": 0.00046241610738255033, "loss": 2.1703, "step": 62 }, { "epoch": 0.168, "grad_norm": 2.0138027667999268, "learning_rate": 0.00046174496644295305, "loss": 2.273, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 2.023001194000244, "learning_rate": 0.0004610738255033557, "loss": 2.2078, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 1.9026998281478882, "learning_rate": 0.0004604026845637584, "loss": 2.1624, "step": 65 }, { "epoch": 0.176, "grad_norm": 2.529275417327881, "learning_rate": 0.0004597315436241611, "loss": 2.1886, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 2.714327096939087, "learning_rate": 0.00045906040268456377, "loss": 2.1777, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 2.068495035171509, "learning_rate": 0.0004583892617449665, "loss": 2.1414, "step": 68 }, { "epoch": 0.184, "grad_norm": 2.427833080291748, "learning_rate": 0.0004577181208053691, "loss": 2.2098, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 2.0356478691101074, "learning_rate": 0.0004570469798657718, "loss": 2.1437, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 2.0538289546966553, "learning_rate": 0.00045637583892617453, "loss": 2.2302, "step": 71 }, { "epoch": 0.192, "grad_norm": 2.5733108520507812, "learning_rate": 0.0004557046979865772, "loss": 2.1042, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 2.566141366958618, "learning_rate": 0.00045503355704697986, "loss": 2.2464, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 2.350034236907959, "learning_rate": 0.00045436241610738253, "loss": 2.1898, "step": 74 }, { "epoch": 0.2, "grad_norm": 1.9391041994094849, "learning_rate": 0.00045369127516778525, "loss": 2.0656, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 2.1555047035217285, "learning_rate": 0.00045302013422818797, "loss": 2.0669, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 2.3165154457092285, "learning_rate": 0.00045234899328859063, "loss": 2.065, "step": 77 }, { "epoch": 0.208, "grad_norm": 2.1037423610687256, "learning_rate": 0.0004516778523489933, "loss": 2.1215, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 2.142181634902954, "learning_rate": 0.00045100671140939596, "loss": 2.1088, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 2.0997326374053955, "learning_rate": 0.0004503355704697987, "loss": 2.0795, "step": 80 }, { "epoch": 0.216, "grad_norm": 2.4189531803131104, "learning_rate": 0.00044966442953020135, "loss": 2.2738, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 2.238974094390869, "learning_rate": 0.000448993288590604, "loss": 2.1024, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 2.597956895828247, "learning_rate": 0.00044832214765100673, "loss": 2.1586, "step": 83 }, { "epoch": 0.224, "grad_norm": 2.6692593097686768, "learning_rate": 0.0004476510067114094, "loss": 2.2619, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 2.338456630706787, "learning_rate": 0.0004469798657718121, "loss": 2.2293, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 2.1509850025177, "learning_rate": 0.0004463087248322148, "loss": 2.1885, "step": 86 }, { "epoch": 0.232, "grad_norm": 1.868327021598816, "learning_rate": 0.00044563758389261745, "loss": 2.1006, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 2.0828697681427, "learning_rate": 0.0004449664429530201, "loss": 2.2007, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 2.0917301177978516, "learning_rate": 0.00044429530201342283, "loss": 2.0403, "step": 89 }, { "epoch": 0.24, "grad_norm": 1.9218182563781738, "learning_rate": 0.00044362416107382555, "loss": 2.1742, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 1.991309404373169, "learning_rate": 0.0004429530201342282, "loss": 2.2386, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 2.089097499847412, "learning_rate": 0.0004422818791946309, "loss": 2.2832, "step": 92 }, { "epoch": 0.248, "grad_norm": 2.3613646030426025, "learning_rate": 0.00044161073825503354, "loss": 2.0967, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 2.2647705078125, "learning_rate": 0.00044093959731543626, "loss": 2.1749, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 2.557692289352417, "learning_rate": 0.00044026845637583893, "loss": 2.1571, "step": 95 }, { "epoch": 0.256, "grad_norm": 2.1566359996795654, "learning_rate": 0.0004395973154362416, "loss": 2.1789, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 1.8936281204223633, "learning_rate": 0.0004389261744966443, "loss": 2.1424, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 2.8550844192504883, "learning_rate": 0.000438255033557047, "loss": 2.1369, "step": 98 }, { "epoch": 0.264, "grad_norm": 2.6517467498779297, "learning_rate": 0.0004375838926174497, "loss": 2.2398, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 2.4939329624176025, "learning_rate": 0.00043691275167785236, "loss": 2.2705, "step": 100 }, { "epoch": 0.26666666666666666, "eval_loss": 2.744743585586548, "eval_runtime": 2.9879, "eval_samples_per_second": 33.468, "eval_steps_per_second": 4.351, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 1.9077235460281372, "learning_rate": 0.000436241610738255, "loss": 2.1767, "step": 101 }, { "epoch": 0.272, "grad_norm": 1.8216391801834106, "learning_rate": 0.00043557046979865775, "loss": 2.1175, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 2.1698806285858154, "learning_rate": 0.0004348993288590604, "loss": 2.1728, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 1.9396804571151733, "learning_rate": 0.00043422818791946313, "loss": 2.0818, "step": 104 }, { "epoch": 0.28, "grad_norm": 2.1544346809387207, "learning_rate": 0.00043355704697986574, "loss": 2.1498, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 1.983604907989502, "learning_rate": 0.00043288590604026846, "loss": 2.194, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 3.0730369091033936, "learning_rate": 0.0004322147651006711, "loss": 2.1437, "step": 107 }, { "epoch": 0.288, "grad_norm": 2.2146384716033936, "learning_rate": 0.00043154362416107384, "loss": 2.2381, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 1.7721198797225952, "learning_rate": 0.00043087248322147656, "loss": 2.1758, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 1.905593991279602, "learning_rate": 0.0004302013422818792, "loss": 2.152, "step": 110 }, { "epoch": 0.296, "grad_norm": 2.222337484359741, "learning_rate": 0.0004295302013422819, "loss": 2.1278, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 1.9015562534332275, "learning_rate": 0.00042885906040268456, "loss": 2.1701, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 2.0160012245178223, "learning_rate": 0.0004281879194630873, "loss": 2.1139, "step": 113 }, { "epoch": 0.304, "grad_norm": 2.5178940296173096, "learning_rate": 0.00042751677852348994, "loss": 2.1912, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 1.9496968984603882, "learning_rate": 0.0004268456375838926, "loss": 2.1285, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 1.9165014028549194, "learning_rate": 0.0004261744966442953, "loss": 2.1468, "step": 116 }, { "epoch": 0.312, "grad_norm": 2.064317464828491, "learning_rate": 0.000425503355704698, "loss": 2.1306, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 2.1233792304992676, "learning_rate": 0.0004248322147651007, "loss": 2.0635, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 2.2450101375579834, "learning_rate": 0.0004241610738255033, "loss": 2.2343, "step": 119 }, { "epoch": 0.32, "grad_norm": 2.2606186866760254, "learning_rate": 0.00042348993288590604, "loss": 2.0978, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 2.1984171867370605, "learning_rate": 0.00042281879194630876, "loss": 2.2415, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 2.1734187602996826, "learning_rate": 0.0004221476510067114, "loss": 2.1066, "step": 122 }, { "epoch": 0.328, "grad_norm": 2.565073013305664, "learning_rate": 0.00042147651006711414, "loss": 2.2116, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 2.5273349285125732, "learning_rate": 0.00042080536912751675, "loss": 2.2632, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 2.053875207901001, "learning_rate": 0.0004201342281879195, "loss": 2.0613, "step": 125 }, { "epoch": 0.336, "grad_norm": 2.1504480838775635, "learning_rate": 0.00041946308724832214, "loss": 2.1702, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 1.9674434661865234, "learning_rate": 0.00041879194630872486, "loss": 2.2179, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 2.0371594429016113, "learning_rate": 0.0004181208053691275, "loss": 2.1576, "step": 128 }, { "epoch": 0.344, "grad_norm": 2.1722424030303955, "learning_rate": 0.0004174496644295302, "loss": 2.1568, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 1.8493080139160156, "learning_rate": 0.0004167785234899329, "loss": 2.1448, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 1.8906511068344116, "learning_rate": 0.00041610738255033557, "loss": 2.1382, "step": 131 }, { "epoch": 0.352, "grad_norm": 2.458812952041626, "learning_rate": 0.0004154362416107383, "loss": 2.1413, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 1.8810272216796875, "learning_rate": 0.0004147651006711409, "loss": 2.1943, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 2.4485628604888916, "learning_rate": 0.0004140939597315436, "loss": 2.2619, "step": 134 }, { "epoch": 0.36, "grad_norm": 2.633702278137207, "learning_rate": 0.00041342281879194634, "loss": 2.3566, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 1.8953648805618286, "learning_rate": 0.000412751677852349, "loss": 2.1156, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 2.009206533432007, "learning_rate": 0.0004120805369127517, "loss": 2.1292, "step": 137 }, { "epoch": 0.368, "grad_norm": 2.1863133907318115, "learning_rate": 0.00041140939597315434, "loss": 2.1048, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 2.2830810546875, "learning_rate": 0.00041073825503355705, "loss": 2.2971, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 1.7698041200637817, "learning_rate": 0.0004100671140939598, "loss": 2.1421, "step": 140 }, { "epoch": 0.376, "grad_norm": 1.9662206172943115, "learning_rate": 0.00040939597315436244, "loss": 2.073, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 1.842811107635498, "learning_rate": 0.0004087248322147651, "loss": 2.1251, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 2.3966176509857178, "learning_rate": 0.00040805369127516777, "loss": 2.2615, "step": 143 }, { "epoch": 0.384, "grad_norm": 1.8330518007278442, "learning_rate": 0.0004073825503355705, "loss": 2.1212, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 2.2815067768096924, "learning_rate": 0.00040671140939597315, "loss": 1.9967, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 2.0610122680664062, "learning_rate": 0.00040604026845637587, "loss": 2.1672, "step": 146 }, { "epoch": 0.392, "grad_norm": 2.2148237228393555, "learning_rate": 0.00040536912751677854, "loss": 2.12, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 2.140583038330078, "learning_rate": 0.0004046979865771812, "loss": 2.2654, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 2.087383270263672, "learning_rate": 0.0004040268456375839, "loss": 2.0081, "step": 149 }, { "epoch": 0.4, "grad_norm": 2.019127368927002, "learning_rate": 0.0004033557046979866, "loss": 2.2961, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 2.156116485595703, "learning_rate": 0.00040268456375838925, "loss": 2.1146, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 2.1553804874420166, "learning_rate": 0.0004020134228187919, "loss": 2.2517, "step": 152 }, { "epoch": 0.408, "grad_norm": 2.3060996532440186, "learning_rate": 0.00040134228187919464, "loss": 2.1544, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 2.078162431716919, "learning_rate": 0.00040067114093959735, "loss": 2.1286, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 2.1695902347564697, "learning_rate": 0.0004, "loss": 2.2246, "step": 155 }, { "epoch": 0.416, "grad_norm": 2.2290070056915283, "learning_rate": 0.0003993288590604027, "loss": 2.2081, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 2.1992504596710205, "learning_rate": 0.00039865771812080535, "loss": 2.1093, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 2.001126527786255, "learning_rate": 0.00039798657718120807, "loss": 2.2068, "step": 158 }, { "epoch": 0.424, "grad_norm": 2.8013081550598145, "learning_rate": 0.0003973154362416108, "loss": 2.2607, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 2.1828129291534424, "learning_rate": 0.00039664429530201345, "loss": 2.1367, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 2.2790374755859375, "learning_rate": 0.0003959731543624161, "loss": 2.1564, "step": 161 }, { "epoch": 0.432, "grad_norm": 2.4061520099639893, "learning_rate": 0.0003953020134228188, "loss": 2.1546, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 1.9639766216278076, "learning_rate": 0.0003946308724832215, "loss": 2.091, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 2.1262893676757812, "learning_rate": 0.00039395973154362417, "loss": 2.1445, "step": 164 }, { "epoch": 0.44, "grad_norm": 1.9325850009918213, "learning_rate": 0.00039328859060402683, "loss": 2.1136, "step": 165 } ], "logging_steps": 1, "max_steps": 750, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 5, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": false, "should_training_stop": false }, "attributes": {} } }, "total_flos": 5.6731631616e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }