mahojo
/

opt-125m-cluster

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

mahojo commited on Apr 8

Commit

e46cb78

·

verified ·

1 Parent(s): 67d5ee7

End of training

Files changed (1) hide show

README.md +18 -8

README.md CHANGED Viewed

@@ -44,18 +44,28 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 1000
-- training_steps: 5000
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 3.1172        | 0.0356 | 1000 | nan             |
-| 3.2603        | 0.0711 | 2000 | nan             |
-| 3.222         | 0.1067 | 3000 | nan             |
-| 3.1457        | 0.1422 | 4000 | nan             |
-| 3.0929        | 0.1778 | 5000 | nan             |
 ### Framework versions

 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 1000
+- training_steps: 15000
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch  | Step  | Validation Loss |
+|:-------------:|:------:|:-----:|:---------------:|
+| 3.1172        | 0.0356 | 1000  | nan             |
+| 3.2603        | 0.0711 | 2000  | nan             |
+| 3.222         | 0.1067 | 3000  | nan             |
+| 3.1457        | 0.1422 | 4000  | nan             |
+| 3.0929        | 0.1778 | 5000  | nan             |
+| 3.1864        | 0.2133 | 6000  | nan             |
+| 3.1887        | 0.2489 | 7000  | nan             |
+| 3.162         | 0.2844 | 8000  | nan             |
+| 3.1355        | 0.32   | 9000  | nan             |
+| 3.1201        | 0.3556 | 10000 | nan             |
+| 3.0831        | 0.3911 | 11000 | nan             |
+| 3.0724        | 0.4267 | 12000 | nan             |
+| 3.0465        | 0.4622 | 13000 | nan             |
+| 3.0446        | 0.4978 | 14000 | nan             |
+| 3.0422        | 0.5333 | 15000 | nan             |
 ### Framework versions