End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
train_results.json +9 -0
trainer_state.json +483 -0

README.md CHANGED Viewed

@@ -2,11 +2,23 @@
 library_name: transformers
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: test_seed-42_1e-3
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -14,7 +26,7 @@ should probably proofread and complete it, then remove this comment. -->
 # test_seed-42_1e-3
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0025
 - Accuracy: 0.4223

 library_name: transformers
 tags:
 - generated_from_trainer
+datasets:
+- qing-yao/slightly-cleaner-babylm
 metrics:
 - accuracy
 model-index:
 - name: test_seed-42_1e-3
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: qing-yao/slightly-cleaner-babylm
+      type: qing-yao/slightly-cleaner-babylm
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4223382514736395
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # test_seed-42_1e-3
+This model was trained from scratch on the qing-yao/slightly-cleaner-babylm dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0025
 - Accuracy: 0.4223

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 19.98937410022623,
+    "eval_accuracy": 0.4223382514736395,
+    "eval_loss": 3.0025322437286377,
+    "eval_runtime": 102.5726,
+    "eval_samples": 45143,
+    "eval_samples_per_second": 440.108,
+    "eval_steps_per_second": 6.883,
+    "perplexity": 20.136462849313748,
+    "total_flos": 1.21900898304e+18,
+    "train_loss": 3.21239372584039,
+    "train_runtime": 46406.0037,
+    "train_samples": 466779,
+    "train_samples_per_second": 201.172,
+    "train_steps_per_second": 0.786
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 19.98937410022623,
+    "eval_accuracy": 0.4223382514736395,
+    "eval_loss": 3.0025322437286377,
+    "eval_runtime": 102.5726,
+    "eval_samples": 45143,
+    "eval_samples_per_second": 440.108,
+    "eval_steps_per_second": 6.883,
+    "perplexity": 20.136462849313748
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 19.98937410022623,
+    "total_flos": 1.21900898304e+18,
+    "train_loss": 3.21239372584039,
+    "train_runtime": 46406.0037,
+    "train_samples": 466779,
+    "train_samples_per_second": 201.172,
+    "train_steps_per_second": 0.786
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,483 @@

+{
+  "best_metric": 3.0025322437286377,
+  "best_model_checkpoint": "models/test_seed-42_1e-3/checkpoint-36460",
+  "epoch": 19.98937410022623,
+  "eval_steps": 500,
+  "global_step": 36460,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5484335367107699,
+      "grad_norm": 4.604539394378662,
+      "learning_rate": 3.125e-05,
+      "loss": 6.1409,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.307168896400241,
+      "eval_loss": 4.236142635345459,
+      "eval_runtime": 102.5735,
+      "eval_samples_per_second": 440.104,
+      "eval_steps_per_second": 6.883,
+      "step": 1824
+    },
+    {
+      "epoch": 1.0965243024610956,
+      "grad_norm": 6.257113933563232,
+      "learning_rate": 6.25e-05,
+      "loss": 4.4438,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6449578391718653,
+      "grad_norm": 5.381688117980957,
+      "learning_rate": 9.375e-05,
+      "loss": 4.0561,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.34904844865531887,
+      "eval_loss": 3.71162748336792,
+      "eval_runtime": 102.7226,
+      "eval_samples_per_second": 439.465,
+      "eval_steps_per_second": 6.873,
+      "step": 3648
+    },
+    {
+      "epoch": 2.193048604922191,
+      "grad_norm": 5.227675437927246,
+      "learning_rate": 0.000125,
+      "loss": 3.7917,
+      "step": 4000
+    },
+    {
+      "epoch": 2.741482141632961,
+      "grad_norm": 4.001857757568359,
+      "learning_rate": 0.00015625,
+      "loss": 3.6138,
+      "step": 5000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3723173375413121,
+      "eval_loss": 3.453321695327759,
+      "eval_runtime": 103.2591,
+      "eval_samples_per_second": 437.182,
+      "eval_steps_per_second": 6.837,
+      "step": 5472
+    },
+    {
+      "epoch": 3.2895729073832864,
+      "grad_norm": 4.385268688201904,
+      "learning_rate": 0.0001875,
+      "loss": 3.4747,
+      "step": 6000
+    },
+    {
+      "epoch": 3.8380064440940562,
+      "grad_norm": 3.377948522567749,
+      "learning_rate": 0.00021875,
+      "loss": 3.3863,
+      "step": 7000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.3849880966497314,
+      "eval_loss": 3.3194580078125,
+      "eval_runtime": 103.8766,
+      "eval_samples_per_second": 434.583,
+      "eval_steps_per_second": 6.797,
+      "step": 7296
+    },
+    {
+      "epoch": 4.386097209844382,
+      "grad_norm": 3.0919594764709473,
+      "learning_rate": 0.00025,
+      "loss": 3.2982,
+      "step": 8000
+    },
+    {
+      "epoch": 4.934530746555152,
+      "grad_norm": 3.083603858947754,
+      "learning_rate": 0.00028121875,
+      "loss": 3.2557,
+      "step": 9000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.3929661428845069,
+      "eval_loss": 3.2404134273529053,
+      "eval_runtime": 103.0746,
+      "eval_samples_per_second": 437.964,
+      "eval_steps_per_second": 6.849,
+      "step": 9120
+    },
+    {
+      "epoch": 5.482621512305477,
+      "grad_norm": 2.775636672973633,
+      "learning_rate": 0.00031246875000000003,
+      "loss": 3.188,
+      "step": 10000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.3972814928421361,
+      "eval_loss": 3.1924350261688232,
+      "eval_runtime": 103.0708,
+      "eval_samples_per_second": 437.981,
+      "eval_steps_per_second": 6.85,
+      "step": 10944
+    },
+    {
+      "epoch": 6.030712278055803,
+      "grad_norm": 2.7608652114868164,
+      "learning_rate": 0.00034368749999999997,
+      "loss": 3.1706,
+      "step": 11000
+    },
+    {
+      "epoch": 6.579145814766573,
+      "grad_norm": 2.680748462677002,
+      "learning_rate": 0.00037490625,
+      "loss": 3.1185,
+      "step": 12000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.40085627676407826,
+      "eval_loss": 3.15944504737854,
+      "eval_runtime": 102.6889,
+      "eval_samples_per_second": 439.609,
+      "eval_steps_per_second": 6.875,
+      "step": 12768
+    },
+    {
+      "epoch": 7.1272365805168985,
+      "grad_norm": 2.6895594596862793,
+      "learning_rate": 0.00040615625,
+      "loss": 3.1032,
+      "step": 13000
+    },
+    {
+      "epoch": 7.675670117227669,
+      "grad_norm": 2.445477247238159,
+      "learning_rate": 0.00043740625,
+      "loss": 3.0753,
+      "step": 14000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.40288859845380237,
+      "eval_loss": 3.1403636932373047,
+      "eval_runtime": 102.725,
+      "eval_samples_per_second": 439.455,
+      "eval_steps_per_second": 6.873,
+      "step": 14592
+    },
+    {
+      "epoch": 8.223760882977993,
+      "grad_norm": 2.3262434005737305,
+      "learning_rate": 0.00046865625,
+      "loss": 3.0553,
+      "step": 15000
+    },
+    {
+      "epoch": 8.772194419688764,
+      "grad_norm": 2.2922704219818115,
+      "learning_rate": 0.00049990625,
+      "loss": 3.047,
+      "step": 16000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.40464988600495244,
+      "eval_loss": 3.1230103969573975,
+      "eval_runtime": 102.505,
+      "eval_samples_per_second": 440.398,
+      "eval_steps_per_second": 6.887,
+      "step": 16416
+    },
+    {
+      "epoch": 9.32028518543909,
+      "grad_norm": 2.122209310531616,
+      "learning_rate": 0.000531125,
+      "loss": 3.0169,
+      "step": 17000
+    },
+    {
+      "epoch": 9.86871872214986,
+      "grad_norm": 2.0698060989379883,
+      "learning_rate": 0.0005623749999999999,
+      "loss": 3.0232,
+      "step": 18000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4059791694627921,
+      "eval_loss": 3.112029790878296,
+      "eval_runtime": 102.491,
+      "eval_samples_per_second": 440.458,
+      "eval_steps_per_second": 6.888,
+      "step": 18240
+    },
+    {
+      "epoch": 10.416809487900185,
+      "grad_norm": 2.0590832233428955,
+      "learning_rate": 0.000593625,
+      "loss": 2.9872,
+      "step": 19000
+    },
+    {
+      "epoch": 10.965243024610954,
+      "grad_norm": 1.9800970554351807,
+      "learning_rate": 0.0006248437500000001,
+      "loss": 3.008,
+      "step": 20000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4073983632839087,
+      "eval_loss": 3.1057026386260986,
+      "eval_runtime": 102.4282,
+      "eval_samples_per_second": 440.728,
+      "eval_steps_per_second": 6.893,
+      "step": 20064
+    },
+    {
+      "epoch": 11.51333379036128,
+      "grad_norm": 1.9862931966781616,
+      "learning_rate": 0.00065609375,
+      "loss": 2.9609,
+      "step": 21000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.4079114170090427,
+      "eval_loss": 3.0999560356140137,
+      "eval_runtime": 102.6416,
+      "eval_samples_per_second": 439.812,
+      "eval_steps_per_second": 6.878,
+      "step": 21888
+    },
+    {
+      "epoch": 12.061424556111605,
+      "grad_norm": 1.9215582609176636,
+      "learning_rate": 0.0006873125,
+      "loss": 2.9846,
+      "step": 22000
+    },
+    {
+      "epoch": 12.609858092822376,
+      "grad_norm": 1.8263485431671143,
+      "learning_rate": 0.0007185625,
+      "loss": 2.954,
+      "step": 23000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.40866657719065297,
+      "eval_loss": 3.092158079147339,
+      "eval_runtime": 102.7763,
+      "eval_samples_per_second": 439.236,
+      "eval_steps_per_second": 6.869,
+      "step": 23712
+    },
+    {
+      "epoch": 13.157948858572702,
+      "grad_norm": 1.9183614253997803,
+      "learning_rate": 0.00074978125,
+      "loss": 2.9608,
+      "step": 24000
+    },
+    {
+      "epoch": 13.706382395283471,
+      "grad_norm": 1.7683203220367432,
+      "learning_rate": 0.0007810312499999999,
+      "loss": 2.953,
+      "step": 25000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.4089403042966295,
+      "eval_loss": 3.0896799564361572,
+      "eval_runtime": 102.684,
+      "eval_samples_per_second": 439.63,
+      "eval_steps_per_second": 6.875,
+      "step": 25536
+    },
+    {
+      "epoch": 14.254473161033797,
+      "grad_norm": 1.7568416595458984,
+      "learning_rate": 0.00081228125,
+      "loss": 2.9428,
+      "step": 26000
+    },
+    {
+      "epoch": 14.802906697744568,
+      "grad_norm": 1.6089884042739868,
+      "learning_rate": 0.00084353125,
+      "loss": 2.952,
+      "step": 27000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.40930029322940215,
+      "eval_loss": 3.087488889694214,
+      "eval_runtime": 102.8286,
+      "eval_samples_per_second": 439.012,
+      "eval_steps_per_second": 6.866,
+      "step": 27360
+    },
+    {
+      "epoch": 15.350997463494892,
+      "grad_norm": 1.7014449834823608,
+      "learning_rate": 0.0008747500000000001,
+      "loss": 2.9285,
+      "step": 28000
+    },
+    {
+      "epoch": 15.899431000205663,
+      "grad_norm": 1.6123307943344116,
+      "learning_rate": 0.000906,
+      "loss": 2.9527,
+      "step": 29000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.409807874149815,
+      "eval_loss": 3.0875635147094727,
+      "eval_runtime": 102.7641,
+      "eval_samples_per_second": 439.288,
+      "eval_steps_per_second": 6.87,
+      "step": 29184
+    },
+    {
+      "epoch": 16.447521765955987,
+      "grad_norm": 1.6590194702148438,
+      "learning_rate": 0.00093725,
+      "loss": 2.9172,
+      "step": 30000
+    },
+    {
+      "epoch": 16.995955302666758,
+      "grad_norm": 1.7436003684997559,
+      "learning_rate": 0.00096846875,
+      "loss": 2.9549,
+      "step": 31000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.40985817183130036,
+      "eval_loss": 3.0855603218078613,
+      "eval_runtime": 102.7791,
+      "eval_samples_per_second": 439.224,
+      "eval_steps_per_second": 6.869,
+      "step": 31008
+    },
+    {
+      "epoch": 17.544046068417085,
+      "grad_norm": 1.626744031906128,
+      "learning_rate": 0.00099971875,
+      "loss": 2.9073,
+      "step": 32000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.4126600741087255,
+      "eval_loss": 3.0625429153442383,
+      "eval_runtime": 102.7386,
+      "eval_samples_per_second": 439.397,
+      "eval_steps_per_second": 6.872,
+      "step": 32832
+    },
+    {
+      "epoch": 18.09213683416741,
+      "grad_norm": 1.553916573524475,
+      "learning_rate": 0.0007780269058295965,
+      "loss": 2.9208,
+      "step": 33000
+    },
+    {
+      "epoch": 18.64057037087818,
+      "grad_norm": 1.514714002609253,
+      "learning_rate": 0.000554035874439462,
+      "loss": 2.8458,
+      "step": 34000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.4182678746797215,
+      "eval_loss": 3.021615743637085,
+      "eval_runtime": 102.6485,
+      "eval_samples_per_second": 439.783,
+      "eval_steps_per_second": 6.878,
+      "step": 34656
+    },
+    {
+      "epoch": 19.188661136628504,
+      "grad_norm": 1.5944099426269531,
+      "learning_rate": 0.00032982062780269057,
+      "loss": 2.7882,
+      "step": 35000
+    },
+    {
+      "epoch": 19.737094673339275,
+      "grad_norm": 1.5419167280197144,
+      "learning_rate": 0.00010560538116591928,
+      "loss": 2.7073,
+      "step": 36000
+    },
+    {
+      "epoch": 19.98937410022623,
+      "eval_accuracy": 0.4223382514736395,
+      "eval_loss": 3.0025322437286377,
+      "eval_runtime": 102.7159,
+      "eval_samples_per_second": 439.494,
+      "eval_steps_per_second": 6.873,
+      "step": 36460
+    },
+    {
+      "epoch": 19.98937410022623,
+      "step": 36460,
+      "total_flos": 1.21900898304e+18,
+      "train_loss": 3.21239372584039,
+      "train_runtime": 46406.0037,
+      "train_samples_per_second": 201.172,
+      "train_steps_per_second": 0.786
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 36460,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.21900898304e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}