{ "best_global_step": 200, "best_metric": 2.740701675415039, "best_model_checkpoint": null, "epoch": 0.76, "eval_steps": 100, "global_step": 285, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 18.99793815612793, "learning_rate": 0.0, "loss": 2.8968, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 11.996694564819336, "learning_rate": 0.0001, "loss": 2.7216, "step": 2 }, { "epoch": 0.008, "grad_norm": 13.868853569030762, "learning_rate": 0.0002, "loss": 2.7594, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 11.259204864501953, "learning_rate": 0.0003, "loss": 2.763, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 7.20668888092041, "learning_rate": 0.0004, "loss": 2.6533, "step": 5 }, { "epoch": 0.016, "grad_norm": 6.761629581451416, "learning_rate": 0.0005, "loss": 2.5771, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 5.149209499359131, "learning_rate": 0.0004993288590604027, "loss": 2.4775, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 5.3045172691345215, "learning_rate": 0.0004986577181208054, "loss": 2.4258, "step": 8 }, { "epoch": 0.024, "grad_norm": 4.353558540344238, "learning_rate": 0.0004979865771812081, "loss": 2.3734, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 6.34622049331665, "learning_rate": 0.0004973154362416108, "loss": 2.4293, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 4.698485374450684, "learning_rate": 0.0004966442953020134, "loss": 2.2754, "step": 11 }, { "epoch": 0.032, "grad_norm": 4.4563679695129395, "learning_rate": 0.0004959731543624161, "loss": 2.3387, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 4.204184532165527, "learning_rate": 0.0004953020134228188, "loss": 2.274, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 4.6718525886535645, "learning_rate": 0.0004946308724832214, "loss": 2.3, "step": 14 }, { "epoch": 0.04, "grad_norm": 3.200247287750244, "learning_rate": 0.0004939597315436242, "loss": 2.1972, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 2.496098518371582, "learning_rate": 0.0004932885906040269, "loss": 2.2999, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 2.854609727859497, "learning_rate": 0.0004926174496644296, "loss": 2.2374, "step": 17 }, { "epoch": 0.048, "grad_norm": 3.2290594577789307, "learning_rate": 0.0004919463087248322, "loss": 2.2791, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 3.2531440258026123, "learning_rate": 0.0004912751677852349, "loss": 2.2158, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 2.5142836570739746, "learning_rate": 0.0004906040268456376, "loss": 2.2618, "step": 20 }, { "epoch": 0.056, "grad_norm": 2.7063865661621094, "learning_rate": 0.0004899328859060403, "loss": 2.3427, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 2.894263744354248, "learning_rate": 0.000489261744966443, "loss": 2.2904, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 2.6508796215057373, "learning_rate": 0.0004885906040268456, "loss": 2.2185, "step": 23 }, { "epoch": 0.064, "grad_norm": 4.005720138549805, "learning_rate": 0.0004879194630872483, "loss": 2.1725, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 2.0936405658721924, "learning_rate": 0.000487248322147651, "loss": 2.1567, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 2.376448154449463, "learning_rate": 0.00048657718120805374, "loss": 2.3067, "step": 26 }, { "epoch": 0.072, "grad_norm": 2.433168649673462, "learning_rate": 0.00048590604026845635, "loss": 2.414, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 2.4113612174987793, "learning_rate": 0.0004852348993288591, "loss": 2.1622, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 2.300220251083374, "learning_rate": 0.00048456375838926174, "loss": 2.1799, "step": 29 }, { "epoch": 0.08, "grad_norm": 2.567547559738159, "learning_rate": 0.00048389261744966446, "loss": 2.313, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 2.345918893814087, "learning_rate": 0.0004832214765100671, "loss": 2.2494, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 2.4843552112579346, "learning_rate": 0.0004825503355704698, "loss": 2.1966, "step": 32 }, { "epoch": 0.088, "grad_norm": 2.4805150032043457, "learning_rate": 0.0004818791946308725, "loss": 2.1327, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 2.462193250656128, "learning_rate": 0.00048120805369127517, "loss": 2.2231, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 2.927288055419922, "learning_rate": 0.0004805369127516779, "loss": 2.1488, "step": 35 }, { "epoch": 0.096, "grad_norm": 3.126699686050415, "learning_rate": 0.0004798657718120805, "loss": 2.1518, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 2.0917441844940186, "learning_rate": 0.0004791946308724832, "loss": 2.1736, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 2.16457462310791, "learning_rate": 0.00047852348993288594, "loss": 2.1238, "step": 38 }, { "epoch": 0.104, "grad_norm": 2.4035158157348633, "learning_rate": 0.0004778523489932886, "loss": 2.2164, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 2.58906626701355, "learning_rate": 0.0004771812080536913, "loss": 2.1475, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 2.1741342544555664, "learning_rate": 0.00047651006711409394, "loss": 2.11, "step": 41 }, { "epoch": 0.112, "grad_norm": 2.265110969543457, "learning_rate": 0.00047583892617449665, "loss": 2.1681, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 2.3968636989593506, "learning_rate": 0.0004751677852348993, "loss": 2.2262, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 2.332958698272705, "learning_rate": 0.00047449664429530204, "loss": 2.2378, "step": 44 }, { "epoch": 0.12, "grad_norm": 1.9767862558364868, "learning_rate": 0.00047382550335570476, "loss": 2.1622, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 2.2687995433807373, "learning_rate": 0.00047315436241610737, "loss": 2.2024, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 1.9566984176635742, "learning_rate": 0.0004724832214765101, "loss": 2.094, "step": 47 }, { "epoch": 0.128, "grad_norm": 3.261591911315918, "learning_rate": 0.00047181208053691275, "loss": 2.0753, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 2.3279614448547363, "learning_rate": 0.00047114093959731547, "loss": 2.1862, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 1.9362128973007202, "learning_rate": 0.0004704697986577181, "loss": 2.1482, "step": 50 }, { "epoch": 0.136, "grad_norm": 2.4454574584960938, "learning_rate": 0.0004697986577181208, "loss": 2.1528, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 1.8882256746292114, "learning_rate": 0.0004691275167785235, "loss": 2.0805, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 1.9548041820526123, "learning_rate": 0.0004684563758389262, "loss": 2.1315, "step": 53 }, { "epoch": 0.144, "grad_norm": 2.049616575241089, "learning_rate": 0.0004677852348993289, "loss": 2.1819, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 2.2909982204437256, "learning_rate": 0.0004671140939597315, "loss": 2.1856, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 2.1005330085754395, "learning_rate": 0.00046644295302013423, "loss": 2.0906, "step": 56 }, { "epoch": 0.152, "grad_norm": 2.2690324783325195, "learning_rate": 0.00046577181208053695, "loss": 2.1937, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 2.1487715244293213, "learning_rate": 0.0004651006711409396, "loss": 2.1735, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 2.1271591186523438, "learning_rate": 0.0004644295302013423, "loss": 2.1865, "step": 59 }, { "epoch": 0.16, "grad_norm": 1.9822970628738403, "learning_rate": 0.00046375838926174495, "loss": 2.1503, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 2.2608866691589355, "learning_rate": 0.00046308724832214767, "loss": 2.2522, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 2.4626386165618896, "learning_rate": 0.00046241610738255033, "loss": 2.1703, "step": 62 }, { "epoch": 0.168, "grad_norm": 2.0138027667999268, "learning_rate": 0.00046174496644295305, "loss": 2.273, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 2.023001194000244, "learning_rate": 0.0004610738255033557, "loss": 2.2078, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 1.9026998281478882, "learning_rate": 0.0004604026845637584, "loss": 2.1624, "step": 65 }, { "epoch": 0.176, "grad_norm": 2.529275417327881, "learning_rate": 0.0004597315436241611, "loss": 2.1886, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 2.714327096939087, "learning_rate": 0.00045906040268456377, "loss": 2.1777, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 2.068495035171509, "learning_rate": 0.0004583892617449665, "loss": 2.1414, "step": 68 }, { "epoch": 0.184, "grad_norm": 2.427833080291748, "learning_rate": 0.0004577181208053691, "loss": 2.2098, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 2.0356478691101074, "learning_rate": 0.0004570469798657718, "loss": 2.1437, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 2.0538289546966553, "learning_rate": 0.00045637583892617453, "loss": 2.2302, "step": 71 }, { "epoch": 0.192, "grad_norm": 2.5733108520507812, "learning_rate": 0.0004557046979865772, "loss": 2.1042, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 2.566141366958618, "learning_rate": 0.00045503355704697986, "loss": 2.2464, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 2.350034236907959, "learning_rate": 0.00045436241610738253, "loss": 2.1898, "step": 74 }, { "epoch": 0.2, "grad_norm": 1.9391041994094849, "learning_rate": 0.00045369127516778525, "loss": 2.0656, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 2.1555047035217285, "learning_rate": 0.00045302013422818797, "loss": 2.0669, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 2.3165154457092285, "learning_rate": 0.00045234899328859063, "loss": 2.065, "step": 77 }, { "epoch": 0.208, "grad_norm": 2.1037423610687256, "learning_rate": 0.0004516778523489933, "loss": 2.1215, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 2.142181634902954, "learning_rate": 0.00045100671140939596, "loss": 2.1088, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 2.0997326374053955, "learning_rate": 0.0004503355704697987, "loss": 2.0795, "step": 80 }, { "epoch": 0.216, "grad_norm": 2.4189531803131104, "learning_rate": 0.00044966442953020135, "loss": 2.2738, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 2.238974094390869, "learning_rate": 0.000448993288590604, "loss": 2.1024, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 2.597956895828247, "learning_rate": 0.00044832214765100673, "loss": 2.1586, "step": 83 }, { "epoch": 0.224, "grad_norm": 2.6692593097686768, "learning_rate": 0.0004476510067114094, "loss": 2.2619, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 2.338456630706787, "learning_rate": 0.0004469798657718121, "loss": 2.2293, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 2.1509850025177, "learning_rate": 0.0004463087248322148, "loss": 2.1885, "step": 86 }, { "epoch": 0.232, "grad_norm": 1.868327021598816, "learning_rate": 0.00044563758389261745, "loss": 2.1006, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 2.0828697681427, "learning_rate": 0.0004449664429530201, "loss": 2.2007, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 2.0917301177978516, "learning_rate": 0.00044429530201342283, "loss": 2.0403, "step": 89 }, { "epoch": 0.24, "grad_norm": 1.9218182563781738, "learning_rate": 0.00044362416107382555, "loss": 2.1742, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 1.991309404373169, "learning_rate": 0.0004429530201342282, "loss": 2.2386, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 2.089097499847412, "learning_rate": 0.0004422818791946309, "loss": 2.2832, "step": 92 }, { "epoch": 0.248, "grad_norm": 2.3613646030426025, "learning_rate": 0.00044161073825503354, "loss": 2.0967, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 2.2647705078125, "learning_rate": 0.00044093959731543626, "loss": 2.1749, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 2.557692289352417, "learning_rate": 0.00044026845637583893, "loss": 2.1571, "step": 95 }, { "epoch": 0.256, "grad_norm": 2.1566359996795654, "learning_rate": 0.0004395973154362416, "loss": 2.1789, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 1.8936281204223633, "learning_rate": 0.0004389261744966443, "loss": 2.1424, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 2.8550844192504883, "learning_rate": 0.000438255033557047, "loss": 2.1369, "step": 98 }, { "epoch": 0.264, "grad_norm": 2.6517467498779297, "learning_rate": 0.0004375838926174497, "loss": 2.2398, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 2.4939329624176025, "learning_rate": 0.00043691275167785236, "loss": 2.2705, "step": 100 }, { "epoch": 0.26666666666666666, "eval_loss": 2.744743585586548, "eval_runtime": 2.9879, "eval_samples_per_second": 33.468, "eval_steps_per_second": 4.351, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 1.9077235460281372, "learning_rate": 0.000436241610738255, "loss": 2.1767, "step": 101 }, { "epoch": 0.272, "grad_norm": 1.8216391801834106, "learning_rate": 0.00043557046979865775, "loss": 2.1175, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 2.1698806285858154, "learning_rate": 0.0004348993288590604, "loss": 2.1728, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 1.9396804571151733, "learning_rate": 0.00043422818791946313, "loss": 2.0818, "step": 104 }, { "epoch": 0.28, "grad_norm": 2.1544346809387207, "learning_rate": 0.00043355704697986574, "loss": 2.1498, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 1.983604907989502, "learning_rate": 0.00043288590604026846, "loss": 2.194, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 3.0730369091033936, "learning_rate": 0.0004322147651006711, "loss": 2.1437, "step": 107 }, { "epoch": 0.288, "grad_norm": 2.2146384716033936, "learning_rate": 0.00043154362416107384, "loss": 2.2381, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 1.7721198797225952, "learning_rate": 0.00043087248322147656, "loss": 2.1758, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 1.905593991279602, "learning_rate": 0.0004302013422818792, "loss": 2.152, "step": 110 }, { "epoch": 0.296, "grad_norm": 2.222337484359741, "learning_rate": 0.0004295302013422819, "loss": 2.1278, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 1.9015562534332275, "learning_rate": 0.00042885906040268456, "loss": 2.1701, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 2.0160012245178223, "learning_rate": 0.0004281879194630873, "loss": 2.1139, "step": 113 }, { "epoch": 0.304, "grad_norm": 2.5178940296173096, "learning_rate": 0.00042751677852348994, "loss": 2.1912, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 1.9496968984603882, "learning_rate": 0.0004268456375838926, "loss": 2.1285, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 1.9165014028549194, "learning_rate": 0.0004261744966442953, "loss": 2.1468, "step": 116 }, { "epoch": 0.312, "grad_norm": 2.064317464828491, "learning_rate": 0.000425503355704698, "loss": 2.1306, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 2.1233792304992676, "learning_rate": 0.0004248322147651007, "loss": 2.0635, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 2.2450101375579834, "learning_rate": 0.0004241610738255033, "loss": 2.2343, "step": 119 }, { "epoch": 0.32, "grad_norm": 2.2606186866760254, "learning_rate": 0.00042348993288590604, "loss": 2.0978, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 2.1984171867370605, "learning_rate": 0.00042281879194630876, "loss": 2.2415, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 2.1734187602996826, "learning_rate": 0.0004221476510067114, "loss": 2.1066, "step": 122 }, { "epoch": 0.328, "grad_norm": 2.565073013305664, "learning_rate": 0.00042147651006711414, "loss": 2.2116, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 2.5273349285125732, "learning_rate": 0.00042080536912751675, "loss": 2.2632, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 2.053875207901001, "learning_rate": 0.0004201342281879195, "loss": 2.0613, "step": 125 }, { "epoch": 0.336, "grad_norm": 2.1504480838775635, "learning_rate": 0.00041946308724832214, "loss": 2.1702, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 1.9674434661865234, "learning_rate": 0.00041879194630872486, "loss": 2.2179, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 2.0371594429016113, "learning_rate": 0.0004181208053691275, "loss": 2.1576, "step": 128 }, { "epoch": 0.344, "grad_norm": 2.1722424030303955, "learning_rate": 0.0004174496644295302, "loss": 2.1568, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 1.8493080139160156, "learning_rate": 0.0004167785234899329, "loss": 2.1448, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 1.8906511068344116, "learning_rate": 0.00041610738255033557, "loss": 2.1382, "step": 131 }, { "epoch": 0.352, "grad_norm": 2.458812952041626, "learning_rate": 0.0004154362416107383, "loss": 2.1413, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 1.8810272216796875, "learning_rate": 0.0004147651006711409, "loss": 2.1943, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 2.4485628604888916, "learning_rate": 0.0004140939597315436, "loss": 2.2619, "step": 134 }, { "epoch": 0.36, "grad_norm": 2.633702278137207, "learning_rate": 0.00041342281879194634, "loss": 2.3566, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 1.8953648805618286, "learning_rate": 0.000412751677852349, "loss": 2.1156, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 2.009206533432007, "learning_rate": 0.0004120805369127517, "loss": 2.1292, "step": 137 }, { "epoch": 0.368, "grad_norm": 2.1863133907318115, "learning_rate": 0.00041140939597315434, "loss": 2.1048, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 2.2830810546875, "learning_rate": 0.00041073825503355705, "loss": 2.2971, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 1.7698041200637817, "learning_rate": 0.0004100671140939598, "loss": 2.1421, "step": 140 }, { "epoch": 0.376, "grad_norm": 1.9662206172943115, "learning_rate": 0.00040939597315436244, "loss": 2.073, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 1.842811107635498, "learning_rate": 0.0004087248322147651, "loss": 2.1251, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 2.3966176509857178, "learning_rate": 0.00040805369127516777, "loss": 2.2615, "step": 143 }, { "epoch": 0.384, "grad_norm": 1.8330518007278442, "learning_rate": 0.0004073825503355705, "loss": 2.1212, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 2.2815067768096924, "learning_rate": 0.00040671140939597315, "loss": 1.9967, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 2.0610122680664062, "learning_rate": 0.00040604026845637587, "loss": 2.1672, "step": 146 }, { "epoch": 0.392, "grad_norm": 2.2148237228393555, "learning_rate": 0.00040536912751677854, "loss": 2.12, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 2.140583038330078, "learning_rate": 0.0004046979865771812, "loss": 2.2654, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 2.087383270263672, "learning_rate": 0.0004040268456375839, "loss": 2.0081, "step": 149 }, { "epoch": 0.4, "grad_norm": 2.019127368927002, "learning_rate": 0.0004033557046979866, "loss": 2.2961, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 2.156116485595703, "learning_rate": 0.00040268456375838925, "loss": 2.1146, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 2.1553804874420166, "learning_rate": 0.0004020134228187919, "loss": 2.2517, "step": 152 }, { "epoch": 0.408, "grad_norm": 2.3060996532440186, "learning_rate": 0.00040134228187919464, "loss": 2.1544, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 2.078162431716919, "learning_rate": 0.00040067114093959735, "loss": 2.1286, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 2.1695902347564697, "learning_rate": 0.0004, "loss": 2.2246, "step": 155 }, { "epoch": 0.416, "grad_norm": 2.2290070056915283, "learning_rate": 0.0003993288590604027, "loss": 2.2081, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 2.1992504596710205, "learning_rate": 0.00039865771812080535, "loss": 2.1093, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 2.001126527786255, "learning_rate": 0.00039798657718120807, "loss": 2.2068, "step": 158 }, { "epoch": 0.424, "grad_norm": 2.8013081550598145, "learning_rate": 0.0003973154362416108, "loss": 2.2607, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 2.1828129291534424, "learning_rate": 0.00039664429530201345, "loss": 2.1367, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 2.2790374755859375, "learning_rate": 0.0003959731543624161, "loss": 2.1564, "step": 161 }, { "epoch": 0.432, "grad_norm": 2.4061520099639893, "learning_rate": 0.0003953020134228188, "loss": 2.1546, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 1.9639766216278076, "learning_rate": 0.0003946308724832215, "loss": 2.091, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 2.1262893676757812, "learning_rate": 0.00039395973154362417, "loss": 2.1445, "step": 164 }, { "epoch": 0.44, "grad_norm": 1.9325850009918213, "learning_rate": 0.00039328859060402683, "loss": 2.1136, "step": 165 }, { "epoch": 0.44266666666666665, "grad_norm": 1.871358036994934, "learning_rate": 0.00039261744966442955, "loss": 2.1256, "step": 166 }, { "epoch": 0.44533333333333336, "grad_norm": 2.239694118499756, "learning_rate": 0.0003919463087248322, "loss": 2.1037, "step": 167 }, { "epoch": 0.448, "grad_norm": 2.328955888748169, "learning_rate": 0.00039127516778523493, "loss": 2.153, "step": 168 }, { "epoch": 0.45066666666666666, "grad_norm": 2.0680394172668457, "learning_rate": 0.0003906040268456376, "loss": 2.2259, "step": 169 }, { "epoch": 0.4533333333333333, "grad_norm": 2.0476558208465576, "learning_rate": 0.00038993288590604026, "loss": 2.066, "step": 170 }, { "epoch": 0.456, "grad_norm": 1.8802927732467651, "learning_rate": 0.00038926174496644293, "loss": 2.2538, "step": 171 }, { "epoch": 0.45866666666666667, "grad_norm": 2.389678955078125, "learning_rate": 0.00038859060402684565, "loss": 2.1479, "step": 172 }, { "epoch": 0.4613333333333333, "grad_norm": 2.0446889400482178, "learning_rate": 0.00038791946308724837, "loss": 2.0938, "step": 173 }, { "epoch": 0.464, "grad_norm": 2.309231996536255, "learning_rate": 0.000387248322147651, "loss": 2.102, "step": 174 }, { "epoch": 0.4666666666666667, "grad_norm": 2.3548967838287354, "learning_rate": 0.0003865771812080537, "loss": 1.929, "step": 175 }, { "epoch": 0.4693333333333333, "grad_norm": 2.109212636947632, "learning_rate": 0.00038590604026845636, "loss": 2.1874, "step": 176 }, { "epoch": 0.472, "grad_norm": 1.7046563625335693, "learning_rate": 0.0003852348993288591, "loss": 2.0835, "step": 177 }, { "epoch": 0.4746666666666667, "grad_norm": 2.3349504470825195, "learning_rate": 0.0003845637583892618, "loss": 2.1755, "step": 178 }, { "epoch": 0.47733333333333333, "grad_norm": 1.9932845830917358, "learning_rate": 0.0003838926174496644, "loss": 2.1853, "step": 179 }, { "epoch": 0.48, "grad_norm": 1.896245002746582, "learning_rate": 0.00038322147651006713, "loss": 2.2239, "step": 180 }, { "epoch": 0.4826666666666667, "grad_norm": 2.451906204223633, "learning_rate": 0.0003825503355704698, "loss": 2.1803, "step": 181 }, { "epoch": 0.48533333333333334, "grad_norm": 3.5472662448883057, "learning_rate": 0.0003818791946308725, "loss": 2.1781, "step": 182 }, { "epoch": 0.488, "grad_norm": 1.7954983711242676, "learning_rate": 0.0003812080536912752, "loss": 2.1159, "step": 183 }, { "epoch": 0.49066666666666664, "grad_norm": 2.308729410171509, "learning_rate": 0.00038053691275167785, "loss": 2.2176, "step": 184 }, { "epoch": 0.49333333333333335, "grad_norm": 2.430508613586426, "learning_rate": 0.00037986577181208056, "loss": 2.1742, "step": 185 }, { "epoch": 0.496, "grad_norm": 3.750340461730957, "learning_rate": 0.00037919463087248323, "loss": 2.1848, "step": 186 }, { "epoch": 0.49866666666666665, "grad_norm": 1.8468990325927734, "learning_rate": 0.00037852348993288595, "loss": 2.2697, "step": 187 }, { "epoch": 0.5013333333333333, "grad_norm": 1.6696285009384155, "learning_rate": 0.00037785234899328856, "loss": 2.119, "step": 188 }, { "epoch": 0.504, "grad_norm": 2.6666688919067383, "learning_rate": 0.0003771812080536913, "loss": 2.0995, "step": 189 }, { "epoch": 0.5066666666666667, "grad_norm": 1.7461131811141968, "learning_rate": 0.00037651006711409394, "loss": 2.1585, "step": 190 }, { "epoch": 0.5093333333333333, "grad_norm": 1.8945667743682861, "learning_rate": 0.00037583892617449666, "loss": 2.2269, "step": 191 }, { "epoch": 0.512, "grad_norm": 2.1470212936401367, "learning_rate": 0.0003751677852348994, "loss": 2.1429, "step": 192 }, { "epoch": 0.5146666666666667, "grad_norm": 1.98981511592865, "learning_rate": 0.000374496644295302, "loss": 2.0532, "step": 193 }, { "epoch": 0.5173333333333333, "grad_norm": 2.916414260864258, "learning_rate": 0.0003738255033557047, "loss": 2.1565, "step": 194 }, { "epoch": 0.52, "grad_norm": 2.0814547538757324, "learning_rate": 0.0003731543624161074, "loss": 2.059, "step": 195 }, { "epoch": 0.5226666666666666, "grad_norm": 2.5623323917388916, "learning_rate": 0.0003724832214765101, "loss": 2.246, "step": 196 }, { "epoch": 0.5253333333333333, "grad_norm": 2.0759260654449463, "learning_rate": 0.0003718120805369127, "loss": 2.1994, "step": 197 }, { "epoch": 0.528, "grad_norm": 2.0958433151245117, "learning_rate": 0.0003711409395973154, "loss": 2.312, "step": 198 }, { "epoch": 0.5306666666666666, "grad_norm": 1.9345588684082031, "learning_rate": 0.00037046979865771815, "loss": 2.262, "step": 199 }, { "epoch": 0.5333333333333333, "grad_norm": 2.496511697769165, "learning_rate": 0.0003697986577181208, "loss": 2.1374, "step": 200 }, { "epoch": 0.5333333333333333, "eval_loss": 2.740701675415039, "eval_runtime": 2.9679, "eval_samples_per_second": 33.693, "eval_steps_per_second": 4.38, "step": 200 }, { "epoch": 0.536, "grad_norm": 2.432771921157837, "learning_rate": 0.00036912751677852353, "loss": 2.0972, "step": 201 }, { "epoch": 0.5386666666666666, "grad_norm": 1.7450460195541382, "learning_rate": 0.00036845637583892614, "loss": 2.1, "step": 202 }, { "epoch": 0.5413333333333333, "grad_norm": 2.1547839641571045, "learning_rate": 0.00036778523489932886, "loss": 2.2389, "step": 203 }, { "epoch": 0.544, "grad_norm": 2.068830966949463, "learning_rate": 0.0003671140939597316, "loss": 2.1345, "step": 204 }, { "epoch": 0.5466666666666666, "grad_norm": 1.9365946054458618, "learning_rate": 0.00036644295302013424, "loss": 2.2807, "step": 205 }, { "epoch": 0.5493333333333333, "grad_norm": 2.5042197704315186, "learning_rate": 0.00036577181208053696, "loss": 2.1585, "step": 206 }, { "epoch": 0.552, "grad_norm": 2.1041066646575928, "learning_rate": 0.0003651006711409396, "loss": 2.2156, "step": 207 }, { "epoch": 0.5546666666666666, "grad_norm": 1.9482405185699463, "learning_rate": 0.0003644295302013423, "loss": 2.1189, "step": 208 }, { "epoch": 0.5573333333333333, "grad_norm": 1.7892388105392456, "learning_rate": 0.00036375838926174496, "loss": 2.252, "step": 209 }, { "epoch": 0.56, "grad_norm": 1.888733148574829, "learning_rate": 0.0003630872483221477, "loss": 2.1769, "step": 210 }, { "epoch": 0.5626666666666666, "grad_norm": 2.031954050064087, "learning_rate": 0.00036241610738255034, "loss": 2.1701, "step": 211 }, { "epoch": 0.5653333333333334, "grad_norm": 2.3231399059295654, "learning_rate": 0.000361744966442953, "loss": 2.1861, "step": 212 }, { "epoch": 0.568, "grad_norm": 1.788241982460022, "learning_rate": 0.0003610738255033557, "loss": 2.2834, "step": 213 }, { "epoch": 0.5706666666666667, "grad_norm": 2.1457693576812744, "learning_rate": 0.0003604026845637584, "loss": 2.1962, "step": 214 }, { "epoch": 0.5733333333333334, "grad_norm": 2.0327866077423096, "learning_rate": 0.0003597315436241611, "loss": 2.2073, "step": 215 }, { "epoch": 0.576, "grad_norm": 2.115037679672241, "learning_rate": 0.0003590604026845637, "loss": 2.2295, "step": 216 }, { "epoch": 0.5786666666666667, "grad_norm": 2.880354404449463, "learning_rate": 0.00035838926174496644, "loss": 2.1047, "step": 217 }, { "epoch": 0.5813333333333334, "grad_norm": 2.5368404388427734, "learning_rate": 0.00035771812080536916, "loss": 2.0423, "step": 218 }, { "epoch": 0.584, "grad_norm": 2.4011788368225098, "learning_rate": 0.0003570469798657718, "loss": 2.1397, "step": 219 }, { "epoch": 0.5866666666666667, "grad_norm": 2.1273884773254395, "learning_rate": 0.0003563758389261745, "loss": 2.1233, "step": 220 }, { "epoch": 0.5893333333333334, "grad_norm": 1.984899878501892, "learning_rate": 0.00035570469798657715, "loss": 2.127, "step": 221 }, { "epoch": 0.592, "grad_norm": 2.167083740234375, "learning_rate": 0.0003550335570469799, "loss": 2.232, "step": 222 }, { "epoch": 0.5946666666666667, "grad_norm": 3.239032030105591, "learning_rate": 0.0003543624161073826, "loss": 2.1998, "step": 223 }, { "epoch": 0.5973333333333334, "grad_norm": 2.70060396194458, "learning_rate": 0.00035369127516778526, "loss": 2.165, "step": 224 }, { "epoch": 0.6, "grad_norm": 2.549748420715332, "learning_rate": 0.0003530201342281879, "loss": 2.1345, "step": 225 }, { "epoch": 0.6026666666666667, "grad_norm": 2.5467982292175293, "learning_rate": 0.0003523489932885906, "loss": 2.2186, "step": 226 }, { "epoch": 0.6053333333333333, "grad_norm": 2.024928569793701, "learning_rate": 0.0003516778523489933, "loss": 2.2048, "step": 227 }, { "epoch": 0.608, "grad_norm": 2.339001178741455, "learning_rate": 0.00035100671140939597, "loss": 2.1128, "step": 228 }, { "epoch": 0.6106666666666667, "grad_norm": 2.081657648086548, "learning_rate": 0.0003503355704697987, "loss": 2.1481, "step": 229 }, { "epoch": 0.6133333333333333, "grad_norm": 2.5542891025543213, "learning_rate": 0.00034966442953020136, "loss": 2.1139, "step": 230 }, { "epoch": 0.616, "grad_norm": 2.399930715560913, "learning_rate": 0.000348993288590604, "loss": 2.2168, "step": 231 }, { "epoch": 0.6186666666666667, "grad_norm": 2.841947317123413, "learning_rate": 0.00034832214765100674, "loss": 2.2292, "step": 232 }, { "epoch": 0.6213333333333333, "grad_norm": 2.096691846847534, "learning_rate": 0.0003476510067114094, "loss": 2.281, "step": 233 }, { "epoch": 0.624, "grad_norm": 2.235191583633423, "learning_rate": 0.00034697986577181207, "loss": 2.1423, "step": 234 }, { "epoch": 0.6266666666666667, "grad_norm": 1.98981511592865, "learning_rate": 0.00034630872483221474, "loss": 2.0963, "step": 235 }, { "epoch": 0.6293333333333333, "grad_norm": 2.562321424484253, "learning_rate": 0.00034563758389261745, "loss": 2.2252, "step": 236 }, { "epoch": 0.632, "grad_norm": 1.957816243171692, "learning_rate": 0.0003449664429530202, "loss": 2.1558, "step": 237 }, { "epoch": 0.6346666666666667, "grad_norm": 2.5037527084350586, "learning_rate": 0.00034429530201342284, "loss": 2.1328, "step": 238 }, { "epoch": 0.6373333333333333, "grad_norm": 2.771223783493042, "learning_rate": 0.0003436241610738255, "loss": 2.0781, "step": 239 }, { "epoch": 0.64, "grad_norm": 2.536529541015625, "learning_rate": 0.00034295302013422817, "loss": 2.1027, "step": 240 }, { "epoch": 0.6426666666666667, "grad_norm": 2.237752676010132, "learning_rate": 0.0003422818791946309, "loss": 2.1383, "step": 241 }, { "epoch": 0.6453333333333333, "grad_norm": 1.5845708847045898, "learning_rate": 0.0003416107382550336, "loss": 2.023, "step": 242 }, { "epoch": 0.648, "grad_norm": 1.7144144773483276, "learning_rate": 0.0003409395973154362, "loss": 2.1981, "step": 243 }, { "epoch": 0.6506666666666666, "grad_norm": 1.855108618736267, "learning_rate": 0.00034026845637583894, "loss": 2.2067, "step": 244 }, { "epoch": 0.6533333333333333, "grad_norm": 2.1525416374206543, "learning_rate": 0.0003395973154362416, "loss": 2.1202, "step": 245 }, { "epoch": 0.656, "grad_norm": 2.037158250808716, "learning_rate": 0.0003389261744966443, "loss": 1.9837, "step": 246 }, { "epoch": 0.6586666666666666, "grad_norm": 1.9977716207504272, "learning_rate": 0.000338255033557047, "loss": 2.0789, "step": 247 }, { "epoch": 0.6613333333333333, "grad_norm": 2.34332537651062, "learning_rate": 0.00033758389261744965, "loss": 2.1831, "step": 248 }, { "epoch": 0.664, "grad_norm": 1.906984806060791, "learning_rate": 0.00033691275167785237, "loss": 2.1709, "step": 249 }, { "epoch": 0.6666666666666666, "grad_norm": 2.040377378463745, "learning_rate": 0.00033624161073825504, "loss": 2.17, "step": 250 }, { "epoch": 0.6693333333333333, "grad_norm": 2.194075584411621, "learning_rate": 0.00033557046979865775, "loss": 2.1339, "step": 251 }, { "epoch": 0.672, "grad_norm": 1.8506706953048706, "learning_rate": 0.0003348993288590604, "loss": 2.0948, "step": 252 }, { "epoch": 0.6746666666666666, "grad_norm": 2.300224542617798, "learning_rate": 0.0003342281879194631, "loss": 2.158, "step": 253 }, { "epoch": 0.6773333333333333, "grad_norm": 2.17006254196167, "learning_rate": 0.00033355704697986575, "loss": 2.0909, "step": 254 }, { "epoch": 0.68, "grad_norm": 2.01373028755188, "learning_rate": 0.00033288590604026847, "loss": 2.1176, "step": 255 }, { "epoch": 0.6826666666666666, "grad_norm": 2.039323329925537, "learning_rate": 0.0003322147651006712, "loss": 2.0425, "step": 256 }, { "epoch": 0.6853333333333333, "grad_norm": 2.055745840072632, "learning_rate": 0.0003315436241610738, "loss": 2.2604, "step": 257 }, { "epoch": 0.688, "grad_norm": 2.216076135635376, "learning_rate": 0.0003308724832214765, "loss": 2.1056, "step": 258 }, { "epoch": 0.6906666666666667, "grad_norm": 2.107740640640259, "learning_rate": 0.0003302013422818792, "loss": 2.1517, "step": 259 }, { "epoch": 0.6933333333333334, "grad_norm": 2.030858039855957, "learning_rate": 0.0003295302013422819, "loss": 2.1023, "step": 260 }, { "epoch": 0.696, "grad_norm": 2.606762409210205, "learning_rate": 0.0003288590604026846, "loss": 2.2656, "step": 261 }, { "epoch": 0.6986666666666667, "grad_norm": 2.219172239303589, "learning_rate": 0.00032818791946308723, "loss": 2.1788, "step": 262 }, { "epoch": 0.7013333333333334, "grad_norm": 2.073962926864624, "learning_rate": 0.00032751677852348995, "loss": 2.2169, "step": 263 }, { "epoch": 0.704, "grad_norm": 2.245675563812256, "learning_rate": 0.0003268456375838926, "loss": 2.0914, "step": 264 }, { "epoch": 0.7066666666666667, "grad_norm": 2.268787384033203, "learning_rate": 0.00032617449664429533, "loss": 2.2603, "step": 265 }, { "epoch": 0.7093333333333334, "grad_norm": 2.13130521774292, "learning_rate": 0.00032550335570469795, "loss": 2.1441, "step": 266 }, { "epoch": 0.712, "grad_norm": 2.3065457344055176, "learning_rate": 0.00032483221476510066, "loss": 2.0655, "step": 267 }, { "epoch": 0.7146666666666667, "grad_norm": 1.823378562927246, "learning_rate": 0.0003241610738255034, "loss": 2.1941, "step": 268 }, { "epoch": 0.7173333333333334, "grad_norm": 2.497478485107422, "learning_rate": 0.00032348993288590605, "loss": 2.133, "step": 269 }, { "epoch": 0.72, "grad_norm": 2.1215364933013916, "learning_rate": 0.00032281879194630877, "loss": 2.212, "step": 270 }, { "epoch": 0.7226666666666667, "grad_norm": 2.1457154750823975, "learning_rate": 0.0003221476510067114, "loss": 2.0565, "step": 271 }, { "epoch": 0.7253333333333334, "grad_norm": 2.054640769958496, "learning_rate": 0.0003214765100671141, "loss": 2.1846, "step": 272 }, { "epoch": 0.728, "grad_norm": 2.0127322673797607, "learning_rate": 0.00032080536912751676, "loss": 2.1023, "step": 273 }, { "epoch": 0.7306666666666667, "grad_norm": 2.287769317626953, "learning_rate": 0.0003201342281879195, "loss": 2.2209, "step": 274 }, { "epoch": 0.7333333333333333, "grad_norm": 2.2740089893341064, "learning_rate": 0.0003194630872483222, "loss": 2.1794, "step": 275 }, { "epoch": 0.736, "grad_norm": 1.9273651838302612, "learning_rate": 0.0003187919463087248, "loss": 2.1494, "step": 276 }, { "epoch": 0.7386666666666667, "grad_norm": 1.9163007736206055, "learning_rate": 0.00031812080536912753, "loss": 2.1361, "step": 277 }, { "epoch": 0.7413333333333333, "grad_norm": 2.034879446029663, "learning_rate": 0.0003174496644295302, "loss": 2.1002, "step": 278 }, { "epoch": 0.744, "grad_norm": 2.0113587379455566, "learning_rate": 0.0003167785234899329, "loss": 2.0556, "step": 279 }, { "epoch": 0.7466666666666667, "grad_norm": 1.9540075063705444, "learning_rate": 0.0003161073825503356, "loss": 2.1205, "step": 280 }, { "epoch": 0.7493333333333333, "grad_norm": 1.846451759338379, "learning_rate": 0.00031543624161073825, "loss": 2.1208, "step": 281 }, { "epoch": 0.752, "grad_norm": 2.23952317237854, "learning_rate": 0.00031476510067114096, "loss": 2.1114, "step": 282 }, { "epoch": 0.7546666666666667, "grad_norm": 2.0379295349121094, "learning_rate": 0.00031409395973154363, "loss": 2.1716, "step": 283 }, { "epoch": 0.7573333333333333, "grad_norm": 1.8898409605026245, "learning_rate": 0.00031342281879194635, "loss": 2.16, "step": 284 }, { "epoch": 0.76, "grad_norm": 1.8317655324935913, "learning_rate": 0.00031275167785234896, "loss": 2.0841, "step": 285 } ], "logging_steps": 1, "max_steps": 750, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 5, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": false, "should_training_stop": false }, "attributes": {} } }, "total_flos": 9.7991000064e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }