mahojo
/

opt-125m-cluster

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

mahojo commited on Apr 8

Commit

c99dae7

·

verified ·

1 Parent(s): 8277692

End of training

Files changed (1) hide show

README.md +16 -1

README.md CHANGED Viewed

@@ -44,7 +44,7 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 1000
-- training_steps: 15000
 - mixed_precision_training: Native AMP
 ### Training results
@@ -66,6 +66,21 @@ The following hyperparameters were used during training:
 | 3.0465        | 0.4622 | 13000 | nan             |
 | 3.0446        | 0.4978 | 14000 | nan             |
 | 3.0422        | 0.5333 | 15000 | nan             |
 ### Framework versions

 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 1000
+- training_steps: 30000
 - mixed_precision_training: Native AMP
 ### Training results
 | 3.0465        | 0.4622 | 13000 | nan             |
 | 3.0446        | 0.4978 | 14000 | nan             |
 | 3.0422        | 0.5333 | 15000 | nan             |
+| 3.0986        | 0.5689 | 16000 | nan             |
+| 3.1074        | 0.6044 | 17000 | nan             |
+| 3.1088        | 0.64   | 18000 | nan             |
+| 3.0854        | 0.6756 | 19000 | nan             |
+| 3.0752        | 0.7111 | 20000 | nan             |
+| 3.065         | 0.7467 | 21000 | nan             |
+| 3.0527        | 0.7822 | 22000 | nan             |
+| 3.0428        | 0.8178 | 23000 | nan             |
+| 3.0357        | 0.8533 | 24000 | nan             |
+| 3.0295        | 0.8889 | 25000 | nan             |
+| 3.0149        | 0.9244 | 26000 | nan             |
+| 3.0146        | 0.96   | 27000 | nan             |
+| 3.0148        | 0.9956 | 28000 | nan             |
+| 2.9621        | 1.0311 | 29000 | nan             |
+| 2.9542        | 1.0667 | 30000 | nan             |
 ### Framework versions