{ "best_global_step": 750, "best_metric": 0.7455451488494873, "best_model_checkpoint": "./llama3-medical-ner-lora/checkpoint-750", "epoch": 5.0, "eval_steps": 50, "global_step": 750, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 1.3331284523010254, "learning_rate": 1.956521739130435e-05, "loss": 2.5713, "step": 10 }, { "epoch": 0.13333333333333333, "grad_norm": 0.7717116475105286, "learning_rate": 4.130434782608696e-05, "loss": 2.2364, "step": 20 }, { "epoch": 0.2, "grad_norm": 1.022110939025879, "learning_rate": 4.999159729517584e-05, "loss": 1.6282, "step": 30 }, { "epoch": 0.26666666666666666, "grad_norm": 0.3284532427787781, "learning_rate": 4.9940267886176525e-05, "loss": 1.1257, "step": 40 }, { "epoch": 0.3333333333333333, "grad_norm": 0.2568124532699585, "learning_rate": 4.98423729574966e-05, "loss": 1.0502, "step": 50 }, { "epoch": 0.3333333333333333, "eval_loss": 0.9805172681808472, "eval_runtime": 35.4475, "eval_samples_per_second": 8.463, "eval_steps_per_second": 2.116, "step": 50 }, { "epoch": 0.4, "grad_norm": 0.2353971004486084, "learning_rate": 4.969809528697343e-05, "loss": 0.9993, "step": 60 }, { "epoch": 0.4666666666666667, "grad_norm": 0.24300724267959595, "learning_rate": 4.9507704252816476e-05, "loss": 0.9705, "step": 70 }, { "epoch": 0.5333333333333333, "grad_norm": 0.2194666862487793, "learning_rate": 4.92715553306561e-05, "loss": 1.0099, "step": 80 }, { "epoch": 0.6, "grad_norm": 0.2301167994737625, "learning_rate": 4.899008942984148e-05, "loss": 0.9886, "step": 90 }, { "epoch": 0.6666666666666666, "grad_norm": 0.2292160838842392, "learning_rate": 4.866383207022684e-05, "loss": 0.9681, "step": 100 }, { "epoch": 0.6666666666666666, "eval_loss": 0.9439311623573303, "eval_runtime": 35.4671, "eval_samples_per_second": 8.459, "eval_steps_per_second": 2.115, "step": 100 }, { "epoch": 0.7333333333333333, "grad_norm": 0.2343800663948059, "learning_rate": 4.829339240098289e-05, "loss": 0.9966, "step": 110 }, { "epoch": 0.8, "grad_norm": 0.2487785518169403, "learning_rate": 4.787946206326551e-05, "loss": 0.9512, "step": 120 }, { "epoch": 0.8666666666666667, "grad_norm": 0.27195578813552856, "learning_rate": 4.7422813898865134e-05, "loss": 0.9114, "step": 130 }, { "epoch": 0.9333333333333333, "grad_norm": 0.2767915427684784, "learning_rate": 4.6924300507247985e-05, "loss": 0.9859, "step": 140 }, { "epoch": 1.0, "grad_norm": 0.37082210183143616, "learning_rate": 4.6384852653683046e-05, "loss": 0.9583, "step": 150 }, { "epoch": 1.0, "eval_loss": 0.9111509323120117, "eval_runtime": 35.494, "eval_samples_per_second": 8.452, "eval_steps_per_second": 2.113, "step": 150 }, { "epoch": 1.0666666666666667, "grad_norm": 0.3415789008140564, "learning_rate": 4.5805477531427296e-05, "loss": 0.934, "step": 160 }, { "epoch": 1.1333333333333333, "grad_norm": 0.3125583231449127, "learning_rate": 4.518725688121348e-05, "loss": 0.9254, "step": 170 }, { "epoch": 1.2, "grad_norm": 0.45944201946258545, "learning_rate": 4.453134497155169e-05, "loss": 0.912, "step": 180 }, { "epoch": 1.2666666666666666, "grad_norm": 0.3102074861526489, "learning_rate": 4.383896644361569e-05, "loss": 0.9052, "step": 190 }, { "epoch": 1.3333333333333333, "grad_norm": 0.33288347721099854, "learning_rate": 4.3111414024737686e-05, "loss": 0.8911, "step": 200 }, { "epoch": 1.3333333333333333, "eval_loss": 0.8711275458335876, "eval_runtime": 35.4843, "eval_samples_per_second": 8.454, "eval_steps_per_second": 2.114, "step": 200 }, { "epoch": 1.4, "grad_norm": 0.33646050095558167, "learning_rate": 4.235004611478068e-05, "loss": 0.8925, "step": 210 }, { "epoch": 1.4666666666666668, "grad_norm": 0.3588886559009552, "learning_rate": 4.155628424989487e-05, "loss": 0.8838, "step": 220 }, { "epoch": 1.5333333333333332, "grad_norm": 0.3315032422542572, "learning_rate": 4.073161044839334e-05, "loss": 0.8988, "step": 230 }, { "epoch": 1.6, "grad_norm": 0.3620290756225586, "learning_rate": 3.987756444370274e-05, "loss": 0.8828, "step": 240 }, { "epoch": 1.6666666666666665, "grad_norm": 0.35735398530960083, "learning_rate": 3.899574080955506e-05, "loss": 0.864, "step": 250 }, { "epoch": 1.6666666666666665, "eval_loss": 0.8529704809188843, "eval_runtime": 35.4888, "eval_samples_per_second": 8.453, "eval_steps_per_second": 2.113, "step": 250 }, { "epoch": 1.7333333333333334, "grad_norm": 0.3929969072341919, "learning_rate": 3.8087785982788006e-05, "loss": 0.8822, "step": 260 }, { "epoch": 1.8, "grad_norm": 0.38041722774505615, "learning_rate": 3.715539518931287e-05, "loss": 0.8824, "step": 270 }, { "epoch": 1.8666666666666667, "grad_norm": 0.3931539058685303, "learning_rate": 3.620030927898909e-05, "loss": 0.8794, "step": 280 }, { "epoch": 1.9333333333333333, "grad_norm": 0.4252939522266388, "learning_rate": 3.522431147531515e-05, "loss": 0.8489, "step": 290 }, { "epoch": 2.0, "grad_norm": 0.4472673535346985, "learning_rate": 3.422922404600459e-05, "loss": 0.8518, "step": 300 }, { "epoch": 2.0, "eval_loss": 0.8331039547920227, "eval_runtime": 35.4426, "eval_samples_per_second": 8.464, "eval_steps_per_second": 2.116, "step": 300 }, { "epoch": 2.066666666666667, "grad_norm": 0.4505618214607239, "learning_rate": 3.3216904900663036e-05, "loss": 0.8251, "step": 310 }, { "epoch": 2.1333333333333333, "grad_norm": 0.4860725700855255, "learning_rate": 3.218924412191916e-05, "loss": 0.8246, "step": 320 }, { "epoch": 2.2, "grad_norm": 0.49937066435813904, "learning_rate": 3.114816043648576e-05, "loss": 0.8218, "step": 330 }, { "epoch": 2.2666666666666666, "grad_norm": 0.5049448609352112, "learning_rate": 3.0095597632740095e-05, "loss": 0.8104, "step": 340 }, { "epoch": 2.3333333333333335, "grad_norm": 0.5481567978858948, "learning_rate": 2.9033520931512063e-05, "loss": 0.8045, "step": 350 }, { "epoch": 2.3333333333333335, "eval_loss": 0.8168566823005676, "eval_runtime": 35.5113, "eval_samples_per_second": 8.448, "eval_steps_per_second": 2.112, "step": 350 }, { "epoch": 2.4, "grad_norm": 0.5587907433509827, "learning_rate": 2.796391331685618e-05, "loss": 0.8169, "step": 360 }, { "epoch": 2.466666666666667, "grad_norm": 0.5773770213127136, "learning_rate": 2.688877183365816e-05, "loss": 0.7933, "step": 370 }, { "epoch": 2.533333333333333, "grad_norm": 0.5882596373558044, "learning_rate": 2.5810103858988838e-05, "loss": 0.774, "step": 380 }, { "epoch": 2.6, "grad_norm": 0.5676733255386353, "learning_rate": 2.472992335416702e-05, "loss": 0.7849, "step": 390 }, { "epoch": 2.6666666666666665, "grad_norm": 0.6170272827148438, "learning_rate": 2.3650247104529003e-05, "loss": 0.7889, "step": 400 }, { "epoch": 2.6666666666666665, "eval_loss": 0.7965357303619385, "eval_runtime": 35.505, "eval_samples_per_second": 8.45, "eval_steps_per_second": 2.112, "step": 400 }, { "epoch": 2.7333333333333334, "grad_norm": 0.657636284828186, "learning_rate": 2.2573090953925403e-05, "loss": 0.7878, "step": 410 }, { "epoch": 2.8, "grad_norm": 0.6277796626091003, "learning_rate": 2.1500466040975855e-05, "loss": 0.79, "step": 420 }, { "epoch": 2.8666666666666667, "grad_norm": 0.6341502070426941, "learning_rate": 2.043437504410876e-05, "loss": 0.8088, "step": 430 }, { "epoch": 2.9333333333333336, "grad_norm": 0.6815982460975647, "learning_rate": 1.9376808442396834e-05, "loss": 0.7824, "step": 440 }, { "epoch": 3.0, "grad_norm": 0.6490885019302368, "learning_rate": 1.8329740799169976e-05, "loss": 0.7779, "step": 450 }, { "epoch": 3.0, "eval_loss": 0.7777776122093201, "eval_runtime": 35.6078, "eval_samples_per_second": 8.425, "eval_steps_per_second": 2.106, "step": 450 }, { "epoch": 3.066666666666667, "grad_norm": 0.7281022667884827, "learning_rate": 1.729512707534402e-05, "loss": 0.744, "step": 460 }, { "epoch": 3.1333333333333333, "grad_norm": 0.7458400726318359, "learning_rate": 1.6274898979348804e-05, "loss": 0.7235, "step": 470 }, { "epoch": 3.2, "grad_norm": 0.7325605750083923, "learning_rate": 1.5270961360470625e-05, "loss": 0.736, "step": 480 }, { "epoch": 3.2666666666666666, "grad_norm": 0.8331992030143738, "learning_rate": 1.4285188652342813e-05, "loss": 0.7157, "step": 490 }, { "epoch": 3.3333333333333335, "grad_norm": 0.7906849980354309, "learning_rate": 1.3319421373224835e-05, "loss": 0.7093, "step": 500 }, { "epoch": 3.3333333333333335, "eval_loss": 0.7700438499450684, "eval_runtime": 35.4762, "eval_samples_per_second": 8.456, "eval_steps_per_second": 2.114, "step": 500 }, { "epoch": 3.4, "grad_norm": 0.7829033732414246, "learning_rate": 1.2375462689604264e-05, "loss": 0.7184, "step": 510 }, { "epoch": 3.466666666666667, "grad_norm": 0.792334794998169, "learning_rate": 1.145507504953737e-05, "loss": 0.7208, "step": 520 }, { "epoch": 3.533333333333333, "grad_norm": 0.8477564454078674, "learning_rate": 1.0559976892014603e-05, "loss": 0.7223, "step": 530 }, { "epoch": 3.6, "grad_norm": 0.8094481825828552, "learning_rate": 9.691839438494399e-06, "loss": 0.7182, "step": 540 }, { "epoch": 3.6666666666666665, "grad_norm": 0.8318313956260681, "learning_rate": 8.852283572596017e-06, "loss": 0.7151, "step": 550 }, { "epoch": 3.6666666666666665, "eval_loss": 0.7561494708061218, "eval_runtime": 35.4757, "eval_samples_per_second": 8.456, "eval_steps_per_second": 2.114, "step": 550 }, { "epoch": 3.7333333333333334, "grad_norm": 0.8856346011161804, "learning_rate": 8.042876813777365e-06, "loss": 0.696, "step": 560 }, { "epoch": 3.8, "grad_norm": 0.9668247103691101, "learning_rate": 7.265130390647906e-06, "loss": 0.7231, "step": 570 }, { "epoch": 3.8666666666666667, "grad_norm": 0.8752608299255371, "learning_rate": 6.52049641938128e-06, "loss": 0.7196, "step": 580 }, { "epoch": 3.9333333333333336, "grad_norm": 0.898747980594635, "learning_rate": 5.810365192495703e-06, "loss": 0.6911, "step": 590 }, { "epoch": 4.0, "grad_norm": 0.916023313999176, "learning_rate": 5.136062583064069e-06, "loss": 0.7277, "step": 600 }, { "epoch": 4.0, "eval_loss": 0.7484967112541199, "eval_runtime": 35.5404, "eval_samples_per_second": 8.441, "eval_steps_per_second": 2.11, "step": 600 }, { "epoch": 4.066666666666666, "grad_norm": 0.8261582851409912, "learning_rate": 4.49884756920054e-06, "loss": 0.716, "step": 610 }, { "epoch": 4.133333333333334, "grad_norm": 0.9138880372047424, "learning_rate": 3.899909883445463e-06, "loss": 0.6697, "step": 620 }, { "epoch": 4.2, "grad_norm": 0.9527451992034912, "learning_rate": 3.3403677914373904e-06, "loss": 0.6714, "step": 630 }, { "epoch": 4.266666666666667, "grad_norm": 0.9099586009979248, "learning_rate": 2.821266004019696e-06, "loss": 0.6676, "step": 640 }, { "epoch": 4.333333333333333, "grad_norm": 0.8699934482574463, "learning_rate": 2.3435737266800206e-06, "loss": 0.6828, "step": 650 }, { "epoch": 4.333333333333333, "eval_loss": 0.7471422553062439, "eval_runtime": 35.4872, "eval_samples_per_second": 8.454, "eval_steps_per_second": 2.113, "step": 650 }, { "epoch": 4.4, "grad_norm": 0.914611279964447, "learning_rate": 1.9081828499643323e-06, "loss": 0.6672, "step": 660 }, { "epoch": 4.466666666666667, "grad_norm": 0.8716428279876709, "learning_rate": 1.5159062842443617e-06, "loss": 0.6646, "step": 670 }, { "epoch": 4.533333333333333, "grad_norm": 0.9138997793197632, "learning_rate": 1.167476441947471e-06, "loss": 0.6952, "step": 680 }, { "epoch": 4.6, "grad_norm": 0.9391671419143677, "learning_rate": 8.635438700827142e-07, "loss": 0.6736, "step": 690 }, { "epoch": 4.666666666666667, "grad_norm": 0.9555970430374146, "learning_rate": 6.046760356164305e-07, "loss": 0.6892, "step": 700 }, { "epoch": 4.666666666666667, "eval_loss": 0.7458275556564331, "eval_runtime": 35.855, "eval_samples_per_second": 8.367, "eval_steps_per_second": 2.092, "step": 700 }, { "epoch": 4.733333333333333, "grad_norm": 0.9022270441055298, "learning_rate": 3.91356265964965e-07, "loss": 0.6942, "step": 710 }, { "epoch": 4.8, "grad_norm": 0.9500442147254944, "learning_rate": 2.2398284658288472e-07, "loss": 0.6801, "step": 720 }, { "epoch": 4.866666666666667, "grad_norm": 0.8745312690734863, "learning_rate": 1.028682773314471e-07, "loss": 0.6579, "step": 730 }, { "epoch": 4.933333333333334, "grad_norm": 0.8790920376777649, "learning_rate": 2.8238689015819276e-08, "loss": 0.6911, "step": 740 }, { "epoch": 5.0, "grad_norm": 0.8877618908882141, "learning_rate": 2.3342118035674096e-10, "loss": 0.659, "step": 750 }, { "epoch": 5.0, "eval_loss": 0.7455451488494873, "eval_runtime": 35.4638, "eval_samples_per_second": 8.459, "eval_steps_per_second": 2.115, "step": 750 } ], "logging_steps": 10, "max_steps": 750, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 50, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 3, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.4317469940110131e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }