/mnt/volume/workdir/.venv/lib/python3.12/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_1m).
  warnings.warn(
07/16/2025 19:12:22 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: False, 16-bits training: True
07/16/2025 19:12:22 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=22,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
dispatch_batches=None,
do_eval=True,
do_predict=False,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=100,
eval_strategy=IntervalStrategy.STEPS,
eval_use_gather_object=False,
evaluation_strategy=None,
fp16=True,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
gradient_checkpointing_kwargs=None,
greater_is_better=False,
group_by_length=True,
half_precision_backend=auto,
hub_always_push=False,
hub_model_id=CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_1m,
hub_private_repo=None,
hub_strategy=HubStrategy.CHECKPOINT,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=3e-05,
length_column_name=input_length,
load_best_model_at_end=True,
local_rank=0,
log_level=passive,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=./w2v-bert-2.0-yoruba_naijavoices_1m/runs/Jul16_19-12-21_gf-asr-training-1a100-2,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=1.0,
logging_strategy=IntervalStrategy.STEPS,
lr_scheduler_kwargs={},
lr_scheduler_type=SchedulerType.LINEAR,
max_grad_norm=1.0,
max_steps=-1,
metric_for_best_model=loss,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
num_train_epochs=1500000.0,
optim=OptimizerNames.ADAMW_TORCH,
optim_args=None,
optim_target_modules=None,
output_dir=./w2v-bert-2.0-yoruba_naijavoices_1m,
overwrite_output_dir=False,
past_index=-1,
per_device_eval_batch_size=160,
per_device_train_batch_size=160,
prediction_loss_only=False,
push_to_hub=True,
push_to_hub_model_id=None,
push_to_hub_organization=CLEAR-Global,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=['tensorboard'],
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
run_name=./w2v-bert-2.0-yoruba_naijavoices_1m,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=100,
save_strategy=SaveStrategy.STEPS,
save_total_limit=1,
seed=42,
skip_memory_metrics=True,
split_batches=None,
tf32=None,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
07/16/2025 19:12:22 - WARNING - datasets.arrow_dataset - num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
remove special characters from datasets (num_proc=16):   0%|          | 0/16 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=16):   6%|▋         | 1/16 [00:00<00:03,  4.89 examples/s]remove special characters from datasets (num_proc=16): 100%|██████████| 16/16 [00:00<00:00, 43.05 examples/s]
remove special characters from datasets (num_proc=22):   0%|          | 0/983 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=22):   5%|▍         | 45/983 [00:00<00:05, 169.06 examples/s]remove special characters from datasets (num_proc=22): 100%|██████████| 983/983 [00:00<00:00, 2092.23 examples/s]
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/config.json
Model config Wav2Vec2BertConfig {
  "_name_or_path": "facebook/w2v-bert-2.0",
  "activation_dropout": 0.0,
  "adapter_act": "relu",
  "adapter_kernel_size": 3,
  "adapter_stride": 2,
  "add_adapter": false,
  "apply_spec_augment": false,
  "architectures": [
    "Wav2Vec2BertModel"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "classifier_proj_size": 768,
  "codevector_dim": 768,
  "conformer_conv_dropout": 0.1,
  "contrastive_logits_temperature": 0.1,
  "conv_depthwise_kernel_size": 31,
  "ctc_loss_reduction": "sum",
  "ctc_zero_infinity": false,
  "diversity_loss_weight": 0.1,
  "eos_token_id": 2,
  "feat_proj_dropout": 0.0,
  "feat_quantizer_dropout": 0.0,
  "feature_projection_input_dim": 160,
  "final_dropout": 0.1,
  "hidden_act": "swish",
  "hidden_dropout": 0.0,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "layerdrop": 0.1,
  "left_max_position_embeddings": 64,
  "mask_feature_length": 10,
  "mask_feature_min_masks": 0,
  "mask_feature_prob": 0.0,
  "mask_time_length": 10,
  "mask_time_min_masks": 2,
  "mask_time_prob": 0.05,
  "max_source_positions": 5000,
  "model_type": "wav2vec2-bert",
  "num_adapter_layers": 1,
  "num_attention_heads": 16,
  "num_codevector_groups": 2,
  "num_codevectors_per_group": 320,
  "num_hidden_layers": 24,
  "num_negatives": 100,
  "output_hidden_size": 1024,
  "pad_token_id": 0,
  "position_embeddings_type": "relative_key",
  "proj_codevector_dim": 768,
  "right_max_position_embeddings": 8,
  "rotary_embedding_base": 10000,
  "tdnn_dilation": [
    1,
    2,
    3,
    1,
    1
  ],
  "tdnn_dim": [
    512,
    512,
    512,
    512,
    1500
  ],
  "tdnn_kernel": [
    5,
    3,
    3,
    1,
    1
  ],
  "torch_dtype": "float32",
  "transformers_version": "4.48.1",
  "use_intermediate_ffn_before_adapter": false,
  "use_weighted_layer_sum": false,
  "vocab_size": null,
  "xvector_output_dim": 512
}

Map:   0%|          | 0/16 [00:00<?, ? examples/s]Map: 100%|██████████| 16/16 [00:00<00:00, 2822.78 examples/s]
Map:   0%|          | 0/983 [00:00<?, ? examples/s]Map: 100%|██████████| 983/983 [00:00<00:00, 112147.78 examples/s]
`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Model config BertConfig {
  "_name_or_path": "./w2v-bert-2.0-yoruba_naijavoices_1m",
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.48.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'Wav2Vec2CTCTokenizer'.
loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/model.safetensors
Some weights of the model checkpoint at facebook/w2v-bert-2.0 were not used when initializing Wav2Vec2BertForCTC: ['masked_spec_embed']
- This IS expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
07/16/2025 19:12:33 - WARNING - datasets.arrow_dataset - num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
preprocess datasets (num_proc=16):   0%|          | 0/16 [00:00<?, ? examples/s]preprocess datasets (num_proc=16):   6%|▋         | 1/16 [00:01<00:16,  1.07s/ examples]preprocess datasets (num_proc=16):  50%|█████     | 8/16 [00:01<00:00,  8.76 examples/s]preprocess datasets (num_proc=16):  75%|███████▌  | 12/16 [00:01<00:00, 11.59 examples/s]preprocess datasets (num_proc=16): 100%|██████████| 16/16 [00:01<00:00,  9.71 examples/s]
preprocess datasets (num_proc=22):   0%|          | 0/983 [00:00<?, ? examples/s]preprocess datasets (num_proc=22):   0%|          | 1/983 [00:01<17:20,  1.06s/ examples]preprocess datasets (num_proc=22):   0%|          | 4/983 [00:01<03:48,  4.29 examples/s]preprocess datasets (num_proc=22):   1%|          | 6/983 [00:01<02:55,  5.56 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 13/983 [00:01<01:04, 14.97 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 17/983 [00:01<00:54, 17.83 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 21/983 [00:01<00:44, 21.47 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 25/983 [00:01<00:44, 21.67 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 33/983 [00:02<00:29, 32.43 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 38/983 [00:02<00:27, 34.05 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 43/983 [00:02<00:27, 33.83 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 49/983 [00:02<00:23, 39.56 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 56/983 [00:02<00:20, 45.62 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 62/983 [00:02<00:23, 39.16 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 72/983 [00:02<00:20, 44.83 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 77/983 [00:03<00:21, 42.03 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 82/983 [00:03<00:27, 33.03 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 94/983 [00:03<00:18, 47.83 examples/s]preprocess datasets (num_proc=22):  10%|█         | 100/983 [00:03<00:23, 37.27 examples/s]preprocess datasets (num_proc=22):  11%|█         | 105/983 [00:03<00:23, 37.10 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 112/983 [00:03<00:20, 42.02 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 119/983 [00:04<00:19, 44.90 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 124/983 [00:04<00:19, 43.71 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 129/983 [00:04<00:22, 38.65 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 134/983 [00:04<00:24, 34.08 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 144/983 [00:04<00:18, 45.83 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 150/983 [00:04<00:21, 39.38 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 155/983 [00:05<00:22, 36.73 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 162/983 [00:05<00:18, 43.47 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 167/983 [00:05<00:21, 38.53 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 172/983 [00:05<00:19, 40.75 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 177/983 [00:05<00:20, 39.15 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 182/983 [00:05<00:22, 36.40 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 188/983 [00:05<00:19, 40.91 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 194/983 [00:06<00:20, 39.34 examples/s]preprocess datasets (num_proc=22):  20%|██        | 200/983 [00:06<00:18, 42.24 examples/s]preprocess datasets (num_proc=22):  21%|██        | 205/983 [00:06<00:18, 43.17 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 212/983 [00:06<00:16, 46.40 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 217/983 [00:06<00:20, 38.07 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 222/983 [00:06<00:18, 40.46 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 232/983 [00:06<00:16, 44.86 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 237/983 [00:07<00:19, 39.18 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 243/983 [00:07<00:17, 42.95 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 248/983 [00:07<00:16, 43.67 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 254/983 [00:07<00:17, 41.40 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 259/983 [00:07<00:16, 43.29 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 264/983 [00:07<00:17, 41.72 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 269/983 [00:07<00:17, 40.67 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 274/983 [00:07<00:18, 39.11 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 283/983 [00:08<00:15, 44.44 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 288/983 [00:08<00:19, 36.02 examples/s]preprocess datasets (num_proc=22):  30%|███       | 295/983 [00:08<00:16, 42.76 examples/s]preprocess datasets (num_proc=22):  31%|███       | 301/983 [00:08<00:17, 39.66 examples/s]preprocess datasets (num_proc=22):  31%|███       | 306/983 [00:08<00:18, 36.74 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 312/983 [00:08<00:16, 41.16 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 317/983 [00:09<00:15, 42.05 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 322/983 [00:09<00:18, 35.10 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 327/983 [00:09<00:17, 38.32 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 333/983 [00:09<00:15, 43.20 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 339/983 [00:09<00:13, 46.92 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 345/983 [00:09<00:15, 40.29 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 350/983 [00:09<00:15, 40.84 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 356/983 [00:09<00:14, 44.07 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 362/983 [00:10<00:13, 45.22 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 367/983 [00:10<00:16, 37.78 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 372/983 [00:10<00:16, 36.42 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 381/983 [00:10<00:13, 43.43 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 386/983 [00:10<00:13, 44.26 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 391/983 [00:10<00:14, 40.94 examples/s]preprocess datasets (num_proc=22):  40%|████      | 396/983 [00:10<00:13, 42.97 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 407/983 [00:11<00:10, 54.82 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 413/983 [00:11<00:15, 36.61 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 422/983 [00:11<00:12, 46.04 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 428/983 [00:11<00:13, 41.06 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 433/983 [00:11<00:13, 41.20 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 438/983 [00:11<00:14, 37.58 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 447/983 [00:12<00:12, 43.52 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 452/983 [00:12<00:12, 43.32 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 457/983 [00:12<00:13, 39.32 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 463/983 [00:12<00:12, 43.04 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 468/983 [00:12<00:11, 43.27 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 473/983 [00:12<00:13, 37.99 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 477/983 [00:12<00:13, 36.78 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 484/983 [00:13<00:11, 41.67 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 491/983 [00:13<00:10, 45.16 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 496/983 [00:13<00:10, 44.68 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 501/983 [00:13<00:11, 43.74 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 506/983 [00:13<00:11, 42.72 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 511/983 [00:13<00:13, 35.45 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 517/983 [00:13<00:11, 39.47 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 524/983 [00:13<00:10, 45.69 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 529/983 [00:14<00:10, 43.73 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 534/983 [00:14<00:12, 35.73 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 539/983 [00:14<00:11, 37.98 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 545/983 [00:14<00:10, 41.96 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 552/983 [00:14<00:09, 45.95 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 557/983 [00:14<00:10, 39.15 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 562/983 [00:14<00:10, 39.04 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 568/983 [00:15<00:09, 43.24 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 575/983 [00:15<00:08, 48.08 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 581/983 [00:15<00:09, 40.42 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 586/983 [00:15<00:10, 37.17 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 594/983 [00:15<00:10, 38.39 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 599/983 [00:15<00:09, 40.35 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 604/983 [00:15<00:09, 38.76 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 611/983 [00:16<00:08, 45.53 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 616/983 [00:16<00:09, 38.18 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 621/983 [00:16<00:09, 38.98 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 626/983 [00:16<00:09, 38.33 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 631/983 [00:16<00:08, 40.98 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 636/983 [00:16<00:10, 31.55 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 644/983 [00:16<00:08, 40.81 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 649/983 [00:17<00:08, 40.25 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 654/983 [00:17<00:08, 36.87 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 659/983 [00:17<00:08, 36.17 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 666/983 [00:17<00:07, 42.25 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 671/983 [00:17<00:07, 43.47 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 676/983 [00:17<00:07, 40.00 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 681/983 [00:17<00:07, 38.18 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 686/983 [00:18<00:07, 39.39 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 694/983 [00:18<00:06, 46.71 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 699/983 [00:18<00:08, 34.18 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 703/983 [00:18<00:08, 33.71 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 712/983 [00:18<00:06, 44.77 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 719/983 [00:18<00:06, 43.46 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 724/983 [00:18<00:06, 42.91 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 731/983 [00:19<00:05, 46.81 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 738/983 [00:19<00:05, 44.48 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 743/983 [00:19<00:06, 37.80 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 751/983 [00:19<00:05, 46.09 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 757/983 [00:19<00:05, 38.94 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 762/983 [00:19<00:05, 40.06 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 767/983 [00:20<00:05, 39.68 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 774/983 [00:20<00:04, 43.47 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 781/983 [00:20<00:04, 47.68 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 786/983 [00:20<00:04, 45.78 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 791/983 [00:20<00:04, 38.85 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 796/983 [00:20<00:04, 39.85 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 804/983 [00:20<00:03, 47.70 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 810/983 [00:20<00:03, 47.89 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 815/983 [00:21<00:04, 35.60 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 823/983 [00:21<00:03, 43.31 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 828/983 [00:21<00:03, 43.64 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 833/983 [00:21<00:03, 37.73 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 841/983 [00:21<00:03, 44.03 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 846/983 [00:21<00:03, 37.05 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 851/983 [00:22<00:03, 39.18 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 858/983 [00:22<00:02, 44.29 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 864/983 [00:22<00:02, 44.43 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 869/983 [00:22<00:02, 41.47 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 874/983 [00:22<00:02, 39.91 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 882/983 [00:22<00:02, 48.95 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 888/983 [00:22<00:01, 50.34 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 894/983 [00:23<00:02, 40.17 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 902/983 [00:23<00:01, 48.37 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 909/983 [00:23<00:01, 40.04 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 914/983 [00:23<00:01, 40.97 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 923/983 [00:23<00:01, 46.16 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 928/983 [00:23<00:01, 39.20 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 935/983 [00:23<00:01, 44.92 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 940/983 [00:24<00:01, 36.78 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 945/983 [00:24<00:01, 36.84 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 951/983 [00:24<00:01, 31.95 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 958/983 [00:24<00:00, 38.36 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 964/983 [00:24<00:00, 42.28 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 969/983 [00:24<00:00, 34.96 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 974/983 [00:25<00:00, 36.12 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 979/983 [00:25<00:00, 29.31 examples/s]preprocess datasets (num_proc=22): 100%|██████████| 983/983 [00:25<00:00, 28.11 examples/s]preprocess datasets (num_proc=22): 100%|██████████| 983/983 [00:25<00:00, 38.27 examples/s]
num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
07/16/2025 19:13:00 - WARNING - datasets.arrow_dataset - num_proc must be <= 16. Reducing num_proc to 16 for dataset of size 16.
Filter (num_proc=16):   0%|          | 0/16 [00:00<?, ? examples/s]Filter (num_proc=16):   6%|▋         | 1/16 [00:00<00:08,  1.82 examples/s]Filter (num_proc=16): 100%|██████████| 16/16 [00:00<00:00, 20.57 examples/s]
Filter (num_proc=22):   0%|          | 0/983 [00:00<?, ? examples/s]Filter (num_proc=22):   5%|▍         | 45/983 [00:00<00:15, 61.66 examples/s]Filter (num_proc=22):  91%|█████████ | 895/983 [00:00<00:00, 1432.39 examples/s]Filter (num_proc=22): 100%|██████████| 983/983 [00:00<00:00, 983.75 examples/s] 
Downloading builder script: 0.00B [00:00, ?B/s]Downloading builder script: 5.13kB [00:00, 20.5MB/s]
Downloading builder script: 0.00B [00:00, ?B/s]Downloading builder script: 6.61kB [00:00, 27.2MB/s]
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/config.json
loading configuration file ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
loading configuration file ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Processor Wav2Vec2BertProcessor:
- feature_extractor: SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

- tokenizer: Wav2Vec2CTCTokenizer(name_or_path='./w2v-bert-2.0-yoruba_naijavoices_1m', vocab_size=57, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	55: AddedToken("[UNK]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	56: AddedToken("[PAD]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	57: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	58: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

{
  "processor_class": "Wav2Vec2BertProcessor"
}

Using auto half precision backend
07/16/2025 19:13:06 - INFO - __main__ - Fine-tuning model from scratch
The following columns in the training set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 16
  Num Epochs = 1,500,000
  Instantaneous batch size per device = 160
  Total train batch size (w. parallel, distributed & accumulation) = 320
  Gradient Accumulation steps = 2
  Total optimization steps = 1,500,000
  Number of trainable parameters = 605,737,851
  0%|          | 0/1500000 [00:00<?, ?it/s]  0%|          | 1/1500000 [00:02<1089:59:46,  2.62s/it]                                                          0%|          | 1/1500000 [00:02<1089:59:46,  2.62s/it]{'loss': 3.2685, 'grad_norm': 7.814303398132324, 'learning_rate': 2e-10, 'epoch': 1.0}
  0%|          | 2/1500000 [00:04<928:51:44,  2.23s/it]                                                          0%|          | 2/1500000 [00:04<928:51:44,  2.23s/it]{'loss': 3.2647, 'grad_norm': 8.1261568069458, 'learning_rate': 4e-10, 'epoch': 2.0}
  0%|          | 3/1500000 [00:06<873:33:05,  2.10s/it]                                                         0%|          | 3/1500000 [00:06<873:33:05,  2.10s/it]{'loss': 3.2538, 'grad_norm': 7.847970962524414, 'learning_rate': 6.000000000000001e-10, 'epoch': 3.0}
  0%|          | 4/1500000 [00:08<866:45:12,  2.08s/it]                                                         0%|          | 4/1500000 [00:08<866:45:12,  2.08s/it]{'loss': 3.258, 'grad_norm': 7.902536869049072, 'learning_rate': 8e-10, 'epoch': 4.0}
  0%|          | 5/1500000 [00:10<890:58:14,  2.14s/it]                                                         0%|          | 5/1500000 [00:10<890:58:14,  2.14s/it]{'loss': 3.2675, 'grad_norm': 7.774788856506348, 'learning_rate': 1e-09, 'epoch': 5.0}
  0%|          | 6/1500000 [00:13<903:35:08,  2.17s/it]                                                         0%|          | 6/1500000 [00:13<903:35:08,  2.17s/it]{'loss': 3.2665, 'grad_norm': 8.075958251953125, 'learning_rate': 1.2000000000000002e-09, 'epoch': 6.0}
  0%|          | 7/1500000 [00:15<913:28:25,  2.19s/it]                                                         0%|          | 7/1500000 [00:15<913:28:25,  2.19s/it]{'loss': 3.2647, 'grad_norm': 8.325499534606934, 'learning_rate': 1.4e-09, 'epoch': 7.0}
  0%|          | 8/1500000 [00:17<931:00:06,  2.23s/it]                                                         0%|          | 8/1500000 [00:17<931:00:06,  2.23s/it]{'loss': 3.2583, 'grad_norm': 9.693439483642578, 'learning_rate': 1.6e-09, 'epoch': 8.0}
  0%|          | 9/1500000 [00:19<895:53:32,  2.15s/it]                                                         0%|          | 9/1500000 [00:19<895:53:32,  2.15s/it]{'loss': 3.2653, 'grad_norm': 7.855382442474365, 'learning_rate': 1.8e-09, 'epoch': 9.0}
  0%|          | 10/1500000 [00:21<874:49:30,  2.10s/it]                                                          0%|          | 10/1500000 [00:21<874:49:30,  2.10s/it]{'loss': 3.2702, 'grad_norm': 7.930777072906494, 'learning_rate': 2e-09, 'epoch': 10.0}
  0%|          | 11/1500000 [00:23<855:23:36,  2.05s/it]                                                          0%|          | 11/1500000 [00:23<855:23:36,  2.05s/it]{'loss': 3.2624, 'grad_norm': 7.845592975616455, 'learning_rate': 2.2e-09, 'epoch': 11.0}
  0%|          | 12/1500000 [00:25<842:50:00,  2.02s/it]                                                          0%|          | 12/1500000 [00:25<842:50:00,  2.02s/it]{'loss': 3.2601, 'grad_norm': 8.011844635009766, 'learning_rate': 2.4000000000000004e-09, 'epoch': 12.0}
  0%|          | 13/1500000 [00:27<867:45:48,  2.08s/it]                                                          0%|          | 13/1500000 [00:27<867:45:48,  2.08s/it]{'loss': 3.2631, 'grad_norm': 7.788098335266113, 'learning_rate': 2.6e-09, 'epoch': 13.0}
  0%|          | 14/1500000 [00:29<889:28:15,  2.13s/it]                                                          0%|          | 14/1500000 [00:29<889:28:15,  2.13s/it]{'loss': 3.2635, 'grad_norm': 9.361040115356445, 'learning_rate': 2.8e-09, 'epoch': 14.0}
  0%|          | 15/1500000 [00:32<901:30:49,  2.16s/it]                                                          0%|          | 15/1500000 [00:32<901:30:49,  2.16s/it]{'loss': 3.2626, 'grad_norm': 7.81775426864624, 'learning_rate': 3.0000000000000004e-09, 'epoch': 15.0}
  0%|          | 16/1500000 [00:34<907:57:33,  2.18s/it]                                                          0%|          | 16/1500000 [00:34<907:57:33,  2.18s/it]{'loss': 3.2591, 'grad_norm': 7.980605602264404, 'learning_rate': 3.2e-09, 'epoch': 16.0}
  0%|          | 17/1500000 [00:36<879:38:07,  2.11s/it]                                                          0%|          | 17/1500000 [00:36<879:38:07,  2.11s/it]{'loss': 3.2549, 'grad_norm': 7.930694580078125, 'learning_rate': 3.4e-09, 'epoch': 17.0}
  0%|          | 18/1500000 [00:38<872:29:30,  2.09s/it]                                                          0%|          | 18/1500000 [00:38<872:29:30,  2.09s/it]{'loss': 3.2597, 'grad_norm': 8.0155611038208, 'learning_rate': 3.6e-09, 'epoch': 18.0}
  0%|          | 19/1500000 [00:40<855:26:59,  2.05s/it]                                                          0%|          | 19/1500000 [00:40<855:26:59,  2.05s/it]{'loss': 3.2588, 'grad_norm': 7.926601409912109, 'learning_rate': 3.8e-09, 'epoch': 19.0}
  0%|          | 20/1500000 [00:42<843:37:16,  2.02s/it]                                                          0%|          | 20/1500000 [00:42<843:37:16,  2.02s/it]{'loss': 3.2675, 'grad_norm': 7.835756778717041, 'learning_rate': 4e-09, 'epoch': 20.0}
  0%|          | 21/1500000 [00:44<833:24:23,  2.00s/it]                                                          0%|          | 21/1500000 [00:44<833:24:23,  2.00s/it]{'loss': 3.2616, 'grad_norm': 7.945023536682129, 'learning_rate': 4.1999999999999996e-09, 'epoch': 21.0}
  0%|          | 22/1500000 [00:46<858:52:56,  2.06s/it]                                                          0%|          | 22/1500000 [00:46<858:52:56,  2.06s/it]{'loss': 3.2694, 'grad_norm': 7.817439556121826, 'learning_rate': 4.4e-09, 'epoch': 22.0}
  0%|          | 23/1500000 [00:48<881:00:31,  2.11s/it]                                                          0%|          | 23/1500000 [00:48<881:00:31,  2.11s/it]{'loss': 3.2606, 'grad_norm': 7.809006690979004, 'learning_rate': 4.600000000000001e-09, 'epoch': 23.0}
  0%|          | 24/1500000 [00:50<862:46:33,  2.07s/it]                                                          0%|          | 24/1500000 [00:50<862:46:33,  2.07s/it]{'loss': 3.2657, 'grad_norm': 7.9260053634643555, 'learning_rate': 4.800000000000001e-09, 'epoch': 24.0}
  0%|          | 25/1500000 [00:52<882:05:48,  2.12s/it]                                                          0%|          | 25/1500000 [00:52<882:05:48,  2.12s/it]{'loss': 3.2536, 'grad_norm': 7.861109256744385, 'learning_rate': 5e-09, 'epoch': 25.0}
  0%|          | 26/1500000 [00:54<859:17:56,  2.06s/it]                                                          0%|          | 26/1500000 [00:54<859:17:56,  2.06s/it]{'loss': 3.2598, 'grad_norm': 7.912184715270996, 'learning_rate': 5.2e-09, 'epoch': 26.0}
  0%|          | 27/1500000 [00:56<848:08:15,  2.04s/it]                                                          0%|          | 27/1500000 [00:56<848:08:15,  2.04s/it]{'loss': 3.2631, 'grad_norm': 7.816476345062256, 'learning_rate': 5.4e-09, 'epoch': 27.0}
  0%|          | 28/1500000 [00:59<873:57:35,  2.10s/it]                                                          0%|          | 28/1500000 [00:59<873:57:35,  2.10s/it]{'loss': 3.2663, 'grad_norm': 7.950829982757568, 'learning_rate': 5.6e-09, 'epoch': 28.0}
  0%|          | 29/1500000 [01:01<891:01:58,  2.14s/it]                                                          0%|          | 29/1500000 [01:01<891:01:58,  2.14s/it]{'loss': 3.261, 'grad_norm': 7.986600399017334, 'learning_rate': 5.8e-09, 'epoch': 29.0}
  0%|          | 30/1500000 [01:03<904:43:03,  2.17s/it]                                                          0%|          | 30/1500000 [01:03<904:43:03,  2.17s/it]{'loss': 3.2644, 'grad_norm': 7.799694061279297, 'learning_rate': 6.000000000000001e-09, 'epoch': 30.0}
  0%|          | 31/1500000 [01:05<878:17:25,  2.11s/it]                                                          0%|          | 31/1500000 [01:05<878:17:25,  2.11s/it]{'loss': 3.2562, 'grad_norm': 7.84622859954834, 'learning_rate': 6.2e-09, 'epoch': 31.0}
  0%|          | 32/1500000 [01:07<862:32:47,  2.07s/it]                                                          0%|          | 32/1500000 [01:07<862:32:47,  2.07s/it]{'loss': 3.2657, 'grad_norm': 7.877236843109131, 'learning_rate': 6.4e-09, 'epoch': 32.0}
  0%|          | 33/1500000 [01:09<846:18:03,  2.03s/it]                                                          0%|          | 33/1500000 [01:09<846:18:03,  2.03s/it]{'loss': 3.2673, 'grad_norm': 7.947333812713623, 'learning_rate': 6.6e-09, 'epoch': 33.0}
  0%|          | 34/1500000 [01:11<867:13:41,  2.08s/it]                                                          0%|          | 34/1500000 [01:11<867:13:41,  2.08s/it]{'loss': 3.2632, 'grad_norm': 8.00626277923584, 'learning_rate': 6.8e-09, 'epoch': 34.0}
  0%|          | 35/1500000 [01:13<856:29:44,  2.06s/it]                                                          0%|          | 35/1500000 [01:13<856:29:44,  2.06s/it]{'loss': 3.2618, 'grad_norm': 7.844593048095703, 'learning_rate': 7e-09, 'epoch': 35.0}
  0%|          | 36/1500000 [01:15<875:53:21,  2.10s/it]                                                          0%|          | 36/1500000 [01:15<875:53:21,  2.10s/it]{'loss': 3.2463, 'grad_norm': 7.917577743530273, 'learning_rate': 7.2e-09, 'epoch': 36.0}
  0%|          | 37/1500000 [01:17<869:43:07,  2.09s/it]                                                          0%|          | 37/1500000 [01:17<869:43:07,  2.09s/it]{'loss': 3.2495, 'grad_norm': 8.233451843261719, 'learning_rate': 7.400000000000001e-09, 'epoch': 37.0}
  0%|          | 38/1500000 [01:20<905:25:12,  2.17s/it]                                                          0%|          | 38/1500000 [01:20<905:25:12,  2.17s/it]{'loss': 3.252, 'grad_norm': 7.841280937194824, 'learning_rate': 7.6e-09, 'epoch': 38.0}
  0%|          | 39/1500000 [01:22<875:32:18,  2.10s/it]                                                          0%|          | 39/1500000 [01:22<875:32:18,  2.10s/it]{'loss': 3.2626, 'grad_norm': 7.809540748596191, 'learning_rate': 7.799999999999999e-09, 'epoch': 39.0}
  0%|          | 40/1500000 [01:24<862:53:30,  2.07s/it]                                                          0%|          | 40/1500000 [01:24<862:53:30,  2.07s/it]{'loss': 3.2495, 'grad_norm': 8.32695198059082, 'learning_rate': 8e-09, 'epoch': 40.0}
  0%|          | 41/1500000 [01:26<845:40:11,  2.03s/it]                                                          0%|          | 41/1500000 [01:26<845:40:11,  2.03s/it]{'loss': 3.2597, 'grad_norm': 7.831579685211182, 'learning_rate': 8.2e-09, 'epoch': 41.0}
  0%|          | 42/1500000 [01:28<837:47:50,  2.01s/it]                                                          0%|          | 42/1500000 [01:28<837:47:50,  2.01s/it]{'loss': 3.2636, 'grad_norm': 7.772896766662598, 'learning_rate': 8.399999999999999e-09, 'epoch': 42.0}
  0%|          | 43/1500000 [01:30<830:13:13,  1.99s/it]                                                          0%|          | 43/1500000 [01:30<830:13:13,  1.99s/it]{'loss': 3.2604, 'grad_norm': 7.927857875823975, 'learning_rate': 8.600000000000001e-09, 'epoch': 43.0}
  0%|          | 44/1500000 [01:32<859:52:07,  2.06s/it]                                                          0%|          | 44/1500000 [01:32<859:52:07,  2.06s/it]{'loss': 3.2571, 'grad_norm': 7.970860481262207, 'learning_rate': 8.8e-09, 'epoch': 44.0}
  0%|          | 45/1500000 [01:34<849:29:14,  2.04s/it]                                                          0%|          | 45/1500000 [01:34<849:29:14,  2.04s/it]{'loss': 3.2513, 'grad_norm': 7.9297566413879395, 'learning_rate': 9e-09, 'epoch': 45.0}
  0%|          | 46/1500000 [01:36<837:25:40,  2.01s/it]                                                          0%|          | 46/1500000 [01:36<837:25:40,  2.01s/it]{'loss': 3.2504, 'grad_norm': 7.8940863609313965, 'learning_rate': 9.200000000000001e-09, 'epoch': 46.0}
  0%|          | 47/1500000 [01:38<828:21:36,  1.99s/it]                                                          0%|          | 47/1500000 [01:38<828:21:36,  1.99s/it]{'loss': 3.2575, 'grad_norm': 7.968513011932373, 'learning_rate': 9.4e-09, 'epoch': 47.0}
  0%|          | 48/1500000 [01:40<822:21:20,  1.97s/it]                                                          0%|          | 48/1500000 [01:40<822:21:20,  1.97s/it]{'loss': 3.2589, 'grad_norm': 7.95715856552124, 'learning_rate': 9.600000000000002e-09, 'epoch': 48.0}
  0%|          | 49/1500000 [01:41<815:09:27,  1.96s/it]                                                          0%|          | 49/1500000 [01:41<815:09:27,  1.96s/it]{'loss': 3.2551, 'grad_norm': 7.920924186706543, 'learning_rate': 9.8e-09, 'epoch': 49.0}
  0%|          | 50/1500000 [01:43<816:20:28,  1.96s/it]                                                          0%|          | 50/1500000 [01:43<816:20:28,  1.96s/it]{'loss': 3.2694, 'grad_norm': 8.020726203918457, 'learning_rate': 1e-08, 'epoch': 50.0}
  0%|          | 51/1500000 [01:45<817:54:21,  1.96s/it]                                                          0%|          | 51/1500000 [01:45<817:54:21,  1.96s/it]{'loss': 3.2622, 'grad_norm': 7.860911846160889, 'learning_rate': 1.02e-08, 'epoch': 51.0}
  0%|          | 52/1500000 [01:47<818:16:08,  1.96s/it]                                                          0%|          | 52/1500000 [01:47<818:16:08,  1.96s/it]{'loss': 3.2603, 'grad_norm': 7.870466232299805, 'learning_rate': 1.04e-08, 'epoch': 52.0}
  0%|          | 53/1500000 [01:50<850:27:59,  2.04s/it]                                                          0%|          | 53/1500000 [01:50<850:27:59,  2.04s/it]{'loss': 3.2592, 'grad_norm': 7.911101818084717, 'learning_rate': 1.06e-08, 'epoch': 53.0}
  0%|          | 54/1500000 [01:52<886:21:36,  2.13s/it]                                                          0%|          | 54/1500000 [01:52<886:21:36,  2.13s/it]{'loss': 3.2462, 'grad_norm': 7.89748477935791, 'learning_rate': 1.08e-08, 'epoch': 54.0}
  0%|          | 55/1500000 [01:54<865:22:14,  2.08s/it]                                                          0%|          | 55/1500000 [01:54<865:22:14,  2.08s/it]{'loss': 3.2568, 'grad_norm': 12.077702522277832, 'learning_rate': 1.1000000000000001e-08, 'epoch': 55.0}
  0%|          | 56/1500000 [01:56<883:39:01,  2.12s/it]                                                          0%|          | 56/1500000 [01:56<883:39:01,  2.12s/it]{'loss': 3.252, 'grad_norm': 7.816746234893799, 'learning_rate': 1.12e-08, 'epoch': 56.0}
  0%|          | 57/1500000 [01:58<896:56:53,  2.15s/it]                                                          0%|          | 57/1500000 [01:58<896:56:53,  2.15s/it]{'loss': 3.2636, 'grad_norm': 7.82279634475708, 'learning_rate': 1.1400000000000001e-08, 'epoch': 57.0}
  0%|          | 58/1500000 [02:00<875:13:28,  2.10s/it]                                                          0%|          | 58/1500000 [02:00<875:13:28,  2.10s/it]{'loss': 3.25, 'grad_norm': 8.193252563476562, 'learning_rate': 1.16e-08, 'epoch': 58.0}
  0%|          | 59/1500000 [02:02<865:09:58,  2.08s/it]                                                          0%|          | 59/1500000 [02:02<865:09:58,  2.08s/it]{'loss': 3.2588, 'grad_norm': 8.131877899169922, 'learning_rate': 1.18e-08, 'epoch': 59.0}
  0%|          | 60/1500000 [02:05<884:28:38,  2.12s/it]                                                          0%|          | 60/1500000 [02:05<884:28:38,  2.12s/it]{'loss': 3.26, 'grad_norm': 8.063797950744629, 'learning_rate': 1.2000000000000002e-08, 'epoch': 60.0}
  0%|          | 61/1500000 [02:07<898:22:52,  2.16s/it]                                                          0%|          | 61/1500000 [02:07<898:22:52,  2.16s/it]{'loss': 3.2543, 'grad_norm': 8.080199241638184, 'learning_rate': 1.22e-08, 'epoch': 61.0}
  0%|          | 62/1500000 [02:09<908:18:02,  2.18s/it]                                                          0%|          | 62/1500000 [02:09<908:18:02,  2.18s/it]{'loss': 3.2446, 'grad_norm': 7.980358123779297, 'learning_rate': 1.24e-08, 'epoch': 62.0}
  0%|          | 63/1500000 [02:11<915:02:41,  2.20s/it]                                                          0%|          | 63/1500000 [02:11<915:02:41,  2.20s/it]{'loss': 3.267, 'grad_norm': 7.777976036071777, 'learning_rate': 1.26e-08, 'epoch': 63.0}
  0%|          | 64/1500000 [02:13<885:57:53,  2.13s/it]                                                          0%|          | 64/1500000 [02:13<885:57:53,  2.13s/it]{'loss': 3.2636, 'grad_norm': 8.049251556396484, 'learning_rate': 1.28e-08, 'epoch': 64.0}
  0%|          | 65/1500000 [02:15<863:36:49,  2.07s/it]                                                          0%|          | 65/1500000 [02:15<863:36:49,  2.07s/it]{'loss': 3.2532, 'grad_norm': 7.9299702644348145, 'learning_rate': 1.2999999999999999e-08, 'epoch': 65.0}
  0%|          | 66/1500000 [02:17<849:13:45,  2.04s/it]                                                          0%|          | 66/1500000 [02:17<849:13:45,  2.04s/it]{'loss': 3.2571, 'grad_norm': 7.966070652008057, 'learning_rate': 1.32e-08, 'epoch': 66.0}
  0%|          | 67/1500000 [02:19<839:34:28,  2.02s/it]                                                          0%|          | 67/1500000 [02:19<839:34:28,  2.02s/it]{'loss': 3.2559, 'grad_norm': 10.223112106323242, 'learning_rate': 1.3400000000000001e-08, 'epoch': 67.0}
  0%|          | 68/1500000 [02:21<833:22:44,  2.00s/it]                                                          0%|          | 68/1500000 [02:21<833:22:44,  2.00s/it]{'loss': 3.2391, 'grad_norm': 7.8939738273620605, 'learning_rate': 1.36e-08, 'epoch': 68.0}
  0%|          | 69/1500000 [02:23<831:00:04,  1.99s/it]                                                          0%|          | 69/1500000 [02:23<831:00:04,  1.99s/it]{'loss': 3.2578, 'grad_norm': 8.645957946777344, 'learning_rate': 1.3800000000000001e-08, 'epoch': 69.0}
  0%|          | 70/1500000 [02:25<826:46:44,  1.98s/it]                                                          0%|          | 70/1500000 [02:25<826:46:44,  1.98s/it]{'loss': 3.2464, 'grad_norm': 7.886996746063232, 'learning_rate': 1.4e-08, 'epoch': 70.0}
  0%|          | 71/1500000 [02:27<820:40:16,  1.97s/it]                                                          0%|          | 71/1500000 [02:27<820:40:16,  1.97s/it]{'loss': 3.2603, 'grad_norm': 7.748234748840332, 'learning_rate': 1.42e-08, 'epoch': 71.0}
  0%|          | 72/1500000 [02:29<825:47:05,  1.98s/it]                                                          0%|          | 72/1500000 [02:29<825:47:05,  1.98s/it]{'loss': 3.2591, 'grad_norm': 7.946131706237793, 'learning_rate': 1.44e-08, 'epoch': 72.0}
  0%|          | 73/1500000 [02:31<828:16:22,  1.99s/it]                                                          0%|          | 73/1500000 [02:31<828:16:22,  1.99s/it]{'loss': 3.2536, 'grad_norm': 8.06750774383545, 'learning_rate': 1.46e-08, 'epoch': 73.0}
  0%|          | 74/1500000 [02:33<831:36:12,  2.00s/it]                                                          0%|          | 74/1500000 [02:33<831:36:12,  2.00s/it]{'loss': 3.2618, 'grad_norm': 8.007046699523926, 'learning_rate': 1.4800000000000002e-08, 'epoch': 74.0}
  0%|          | 75/1500000 [02:35<825:26:55,  1.98s/it]                                                          0%|          | 75/1500000 [02:35<825:26:55,  1.98s/it]{'loss': 3.2577, 'grad_norm': 7.7759809494018555, 'learning_rate': 1.5000000000000002e-08, 'epoch': 75.0}
  0%|          | 76/1500000 [02:37<844:32:39,  2.03s/it]                                                          0%|          | 76/1500000 [02:37<844:32:39,  2.03s/it]{'loss': 3.2548, 'grad_norm': 7.90961217880249, 'learning_rate': 1.52e-08, 'epoch': 76.0}
  0%|          | 77/1500000 [02:39<837:58:32,  2.01s/it]                                                          0%|          | 77/1500000 [02:39<837:58:32,  2.01s/it]{'loss': 3.2355, 'grad_norm': 8.027730941772461, 'learning_rate': 1.54e-08, 'epoch': 77.0}
  0%|          | 78/1500000 [02:41<833:29:41,  2.00s/it]                                                          0%|          | 78/1500000 [02:41<833:29:41,  2.00s/it]{'loss': 3.2477, 'grad_norm': 7.897160530090332, 'learning_rate': 1.5599999999999997e-08, 'epoch': 78.0}
  0%|          | 79/1500000 [02:43<829:22:45,  1.99s/it]                                                          0%|          | 79/1500000 [02:43<829:22:45,  1.99s/it]{'loss': 3.261, 'grad_norm': 8.679678916931152, 'learning_rate': 1.5800000000000003e-08, 'epoch': 79.0}
  0%|          | 80/1500000 [02:45<857:29:38,  2.06s/it]                                                          0%|          | 80/1500000 [02:45<857:29:38,  2.06s/it]{'loss': 3.2424, 'grad_norm': 8.39616870880127, 'learning_rate': 1.6e-08, 'epoch': 80.0}
  0%|          | 81/1500000 [02:47<850:59:01,  2.04s/it]                                                          0%|          | 81/1500000 [02:47<850:59:01,  2.04s/it]{'loss': 3.2498, 'grad_norm': 8.065265655517578, 'learning_rate': 1.62e-08, 'epoch': 81.0}
  0%|          | 82/1500000 [02:50<887:20:47,  2.13s/it]                                                          0%|          | 82/1500000 [02:50<887:20:47,  2.13s/it]{'loss': 3.2512, 'grad_norm': 7.928157806396484, 'learning_rate': 1.64e-08, 'epoch': 82.0}
  0%|          | 83/1500000 [02:52<896:34:59,  2.15s/it]                                                          0%|          | 83/1500000 [02:52<896:34:59,  2.15s/it]{'loss': 3.2499, 'grad_norm': 8.131857872009277, 'learning_rate': 1.66e-08, 'epoch': 83.0}
  0%|          | 84/1500000 [02:54<916:48:15,  2.20s/it]                                                          0%|          | 84/1500000 [02:54<916:48:15,  2.20s/it]{'loss': 3.2498, 'grad_norm': 7.966372966766357, 'learning_rate': 1.6799999999999998e-08, 'epoch': 84.0}
  0%|          | 85/1500000 [02:56<893:27:59,  2.14s/it]                                                          0%|          | 85/1500000 [02:56<893:27:59,  2.14s/it]{'loss': 3.2509, 'grad_norm': 8.099942207336426, 'learning_rate': 1.7e-08, 'epoch': 85.0}
  0%|          | 86/1500000 [02:58<877:58:27,  2.11s/it]                                                          0%|          | 86/1500000 [02:58<877:58:27,  2.11s/it]{'loss': 3.2456, 'grad_norm': 7.919800758361816, 'learning_rate': 1.7200000000000002e-08, 'epoch': 86.0}
  0%|          | 87/1500000 [03:00<872:52:07,  2.10s/it]                                                          0%|          | 87/1500000 [03:00<872:52:07,  2.10s/it]{'loss': 3.2362, 'grad_norm': 7.773066520690918, 'learning_rate': 1.74e-08, 'epoch': 87.0}
  0%|          | 88/1500000 [03:02<860:42:41,  2.07s/it]                                                          0%|          | 88/1500000 [03:02<860:42:41,  2.07s/it]{'loss': 3.2486, 'grad_norm': 7.846001625061035, 'learning_rate': 1.76e-08, 'epoch': 88.0}
  0%|          | 89/1500000 [03:04<847:59:26,  2.04s/it]                                                          0%|          | 89/1500000 [03:04<847:59:26,  2.04s/it]{'loss': 3.2529, 'grad_norm': 7.904424667358398, 'learning_rate': 1.78e-08, 'epoch': 89.0}
  0%|          | 90/1500000 [03:06<839:10:29,  2.01s/it]                                                          0%|          | 90/1500000 [03:06<839:10:29,  2.01s/it]{'loss': 3.2598, 'grad_norm': 8.036725997924805, 'learning_rate': 1.8e-08, 'epoch': 90.0}
  0%|          | 91/1500000 [03:08<835:13:38,  2.00s/it]                                                          0%|          | 91/1500000 [03:08<835:13:38,  2.00s/it]{'loss': 3.2556, 'grad_norm': 8.190458297729492, 'learning_rate': 1.82e-08, 'epoch': 91.0}
  0%|          | 92/1500000 [03:10<833:53:16,  2.00s/it]                                                          0%|          | 92/1500000 [03:10<833:53:16,  2.00s/it]{'loss': 3.2456, 'grad_norm': 7.985615253448486, 'learning_rate': 1.8400000000000003e-08, 'epoch': 92.0}
  0%|          | 93/1500000 [03:12<859:40:02,  2.06s/it]                                                          0%|          | 93/1500000 [03:12<859:40:02,  2.06s/it]{'loss': 3.2423, 'grad_norm': 7.947110176086426, 'learning_rate': 1.86e-08, 'epoch': 93.0}
  0%|          | 94/1500000 [03:14<882:23:53,  2.12s/it]                                                          0%|          | 94/1500000 [03:14<882:23:53,  2.12s/it]{'loss': 3.2458, 'grad_norm': 8.028749465942383, 'learning_rate': 1.88e-08, 'epoch': 94.0}
  0%|          | 95/1500000 [03:17<901:00:10,  2.16s/it]                                                          0%|          | 95/1500000 [03:17<901:00:10,  2.16s/it]{'loss': 3.244, 'grad_norm': 8.146821975708008, 'learning_rate': 1.8999999999999998e-08, 'epoch': 95.0}
  0%|          | 96/1500000 [03:19<879:20:36,  2.11s/it]                                                          0%|          | 96/1500000 [03:19<879:20:36,  2.11s/it]{'loss': 3.2423, 'grad_norm': 8.098967552185059, 'learning_rate': 1.9200000000000003e-08, 'epoch': 96.0}
  0%|          | 97/1500000 [03:21<868:54:24,  2.09s/it]                                                          0%|          | 97/1500000 [03:21<868:54:24,  2.09s/it]{'loss': 3.2544, 'grad_norm': 8.058088302612305, 'learning_rate': 1.9400000000000002e-08, 'epoch': 97.0}
  0%|          | 98/1500000 [03:23<852:08:13,  2.05s/it]                                                          0%|          | 98/1500000 [03:23<852:08:13,  2.05s/it]{'loss': 3.2531, 'grad_norm': 8.220878601074219, 'learning_rate': 1.96e-08, 'epoch': 98.0}
  0%|          | 99/1500000 [03:25<843:51:39,  2.03s/it]                                                          0%|          | 99/1500000 [03:25<843:51:39,  2.03s/it]{'loss': 3.249, 'grad_norm': 9.41974925994873, 'learning_rate': 1.9800000000000002e-08, 'epoch': 99.0}
  0%|          | 100/1500000 [03:27<839:54:48,  2.02s/it]                                                           0%|          | 100/1500000 [03:27<839:54:48,  2.02s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 3.234, 'grad_norm': 8.027518272399902, 'learning_rate': 2e-08, 'epoch': 100.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.56it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.16s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.29s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.32s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.27s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.03it/s][A                                                         
                                             [A  0%|          | 100/1500000 [04:07<839:54:48,  2.02s/it]
100%|██████████| 7/7 [00:08<00:00,  1.03it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
{'eval_loss': 6.730738639831543, 'eval_wer': 1.0096308186195826, 'eval_cer': 1.667001174858038, 'eval_runtime': 13.9885, 'eval_samples_per_second': 70.272, 'eval_steps_per_second': 0.5, 'epoch': 100.0}
  0%|          | 101/1500000 [04:22<7449:20:51, 17.88s/it]                                                            0%|          | 101/1500000 [04:22<7449:20:51, 17.88s/it]{'loss': 3.2511, 'grad_norm': 7.925384521484375, 'learning_rate': 2.02e-08, 'epoch': 101.0}
  0%|          | 102/1500000 [04:24<5517:22:53, 13.24s/it]                                                            0%|          | 102/1500000 [04:24<5517:22:53, 13.24s/it]{'loss': 3.2461, 'grad_norm': 8.312837600708008, 'learning_rate': 2.04e-08, 'epoch': 102.0}
  0%|          | 103/1500000 [04:26<4169:26:35, 10.01s/it]                                                            0%|          | 103/1500000 [04:26<4169:26:35, 10.01s/it]{'loss': 3.2506, 'grad_norm': 8.010403633117676, 'learning_rate': 2.0600000000000002e-08, 'epoch': 103.0}
  0%|          | 104/1500000 [04:29<3255:55:41,  7.81s/it]                                                            0%|          | 104/1500000 [04:29<3255:55:41,  7.81s/it]{'loss': 3.2499, 'grad_norm': 7.947690486907959, 'learning_rate': 2.08e-08, 'epoch': 104.0}
  0%|          | 105/1500000 [04:32<2609:03:12,  6.26s/it]                                                            0%|          | 105/1500000 [04:32<2609:03:12,  6.26s/it]{'loss': 3.2418, 'grad_norm': 7.871170520782471, 'learning_rate': 2.1e-08, 'epoch': 105.0}
  0%|          | 106/1500000 [04:34<2163:25:44,  5.19s/it]                                                            0%|          | 106/1500000 [04:35<2163:25:44,  5.19s/it]{'loss': 3.2543, 'grad_norm': 7.983293056488037, 'learning_rate': 2.12e-08, 'epoch': 106.0}
  0%|          | 107/1500000 [04:37<1838:50:50,  4.41s/it]                                                            0%|          | 107/1500000 [04:37<1838:50:50,  4.41s/it]{'loss': 3.2351, 'grad_norm': 8.293571472167969, 'learning_rate': 2.14e-08, 'epoch': 107.0}
  0%|          | 108/1500000 [04:40<1625:02:14,  3.90s/it]                                                            0%|          | 108/1500000 [04:40<1625:02:14,  3.90s/it]{'loss': 3.2491, 'grad_norm': 7.984834671020508, 'learning_rate': 2.16e-08, 'epoch': 108.0}
  0%|          | 109/1500000 [04:42<1431:34:35,  3.44s/it]                                                            0%|          | 109/1500000 [04:42<1431:34:35,  3.44s/it]{'loss': 3.2465, 'grad_norm': 8.102084159851074, 'learning_rate': 2.18e-08, 'epoch': 109.0}
  0%|          | 110/1500000 [04:45<1315:05:27,  3.16s/it]                                                            0%|          | 110/1500000 [04:45<1315:05:27,  3.16s/it]{'loss': 3.2347, 'grad_norm': 8.085409164428711, 'learning_rate': 2.2000000000000002e-08, 'epoch': 110.0}
  0%|          | 111/1500000 [04:47<1228:58:05,  2.95s/it]                                                            0%|          | 111/1500000 [04:47<1228:58:05,  2.95s/it]{'loss': 3.2382, 'grad_norm': 8.018896102905273, 'learning_rate': 2.22e-08, 'epoch': 111.0}
  0%|          | 112/1500000 [04:49<1157:02:29,  2.78s/it]                                                            0%|          | 112/1500000 [04:50<1157:02:29,  2.78s/it]{'loss': 3.2432, 'grad_norm': 8.838802337646484, 'learning_rate': 2.24e-08, 'epoch': 112.0}
  0%|          | 113/1500000 [04:52<1111:40:02,  2.67s/it]                                                            0%|          | 113/1500000 [04:52<1111:40:02,  2.67s/it]{'loss': 3.2464, 'grad_norm': 10.062331199645996, 'learning_rate': 2.26e-08, 'epoch': 113.0}
  0%|          | 114/1500000 [04:55<1112:47:13,  2.67s/it]                                                            0%|          | 114/1500000 [04:55<1112:47:13,  2.67s/it]{'loss': 3.2379, 'grad_norm': 8.192216873168945, 'learning_rate': 2.2800000000000002e-08, 'epoch': 114.0}
  0%|          | 115/1500000 [04:57<1075:28:38,  2.58s/it]                                                            0%|          | 115/1500000 [04:57<1075:28:38,  2.58s/it]{'loss': 3.2233, 'grad_norm': 8.116545677185059, 'learning_rate': 2.3e-08, 'epoch': 115.0}
  0%|          | 116/1500000 [04:59<1054:32:35,  2.53s/it]                                                            0%|          | 116/1500000 [04:59<1054:32:35,  2.53s/it]{'loss': 3.2435, 'grad_norm': 8.003422737121582, 'learning_rate': 2.32e-08, 'epoch': 116.0}
  0%|          | 117/1500000 [05:02<1036:48:05,  2.49s/it]                                                            0%|          | 117/1500000 [05:02<1036:48:05,  2.49s/it]{'loss': 3.2395, 'grad_norm': 8.094429969787598, 'learning_rate': 2.34e-08, 'epoch': 117.0}
  0%|          | 118/1500000 [05:04<1027:13:55,  2.47s/it]                                                            0%|          | 118/1500000 [05:04<1027:13:55,  2.47s/it]{'loss': 3.236, 'grad_norm': 7.935059070587158, 'learning_rate': 2.36e-08, 'epoch': 118.0}
  0%|          | 119/1500000 [05:07<1026:16:46,  2.46s/it]                                                            0%|          | 119/1500000 [05:07<1026:16:46,  2.46s/it]{'loss': 3.2381, 'grad_norm': 8.126775741577148, 'learning_rate': 2.3799999999999998e-08, 'epoch': 119.0}
  0%|          | 120/1500000 [05:09<1033:57:20,  2.48s/it]                                                            0%|          | 120/1500000 [05:09<1033:57:20,  2.48s/it]{'loss': 3.2462, 'grad_norm': 8.067609786987305, 'learning_rate': 2.4000000000000003e-08, 'epoch': 120.0}
  0%|          | 121/1500000 [05:12<1021:27:45,  2.45s/it]                                                            0%|          | 121/1500000 [05:12<1021:27:45,  2.45s/it]{'loss': 3.2413, 'grad_norm': 8.130084991455078, 'learning_rate': 2.42e-08, 'epoch': 121.0}
  0%|          | 122/1500000 [05:14<1018:34:20,  2.44s/it]                                                            0%|          | 122/1500000 [05:14<1018:34:20,  2.44s/it]{'loss': 3.2405, 'grad_norm': 8.4739990234375, 'learning_rate': 2.44e-08, 'epoch': 122.0}
  0%|          | 123/1500000 [05:16<1022:50:49,  2.46s/it]                                                            0%|          | 123/1500000 [05:16<1022:50:49,  2.46s/it]{'loss': 3.2287, 'grad_norm': 8.049735069274902, 'learning_rate': 2.46e-08, 'epoch': 123.0}
  0%|          | 124/1500000 [05:19<1023:05:23,  2.46s/it]                                                            0%|          | 124/1500000 [05:19<1023:05:23,  2.46s/it]{'loss': 3.2397, 'grad_norm': 8.296846389770508, 'learning_rate': 2.48e-08, 'epoch': 124.0}
  0%|          | 125/1500000 [05:21<1017:45:58,  2.44s/it]                                                            0%|          | 125/1500000 [05:21<1017:45:58,  2.44s/it]{'loss': 3.2291, 'grad_norm': 9.655402183532715, 'learning_rate': 2.5000000000000002e-08, 'epoch': 125.0}
  0%|          | 126/1500000 [05:24<1013:51:48,  2.43s/it]                                                            0%|          | 126/1500000 [05:24<1013:51:48,  2.43s/it]{'loss': 3.2398, 'grad_norm': 8.530986785888672, 'learning_rate': 2.52e-08, 'epoch': 126.0}
  0%|          | 127/1500000 [05:26<1010:35:10,  2.43s/it]                                                            0%|          | 127/1500000 [05:26<1010:35:10,  2.43s/it]{'loss': 3.2337, 'grad_norm': 8.187942504882812, 'learning_rate': 2.5400000000000002e-08, 'epoch': 127.0}
  0%|          | 128/1500000 [05:29<1040:22:25,  2.50s/it]                                                            0%|          | 128/1500000 [05:29<1040:22:25,  2.50s/it]{'loss': 3.2311, 'grad_norm': 8.243210792541504, 'learning_rate': 2.56e-08, 'epoch': 128.0}
  0%|          | 129/1500000 [05:31<1026:32:24,  2.46s/it]                                                            0%|          | 129/1500000 [05:31<1026:32:24,  2.46s/it]{'loss': 3.2234, 'grad_norm': 8.099616050720215, 'learning_rate': 2.58e-08, 'epoch': 129.0}
  0%|          | 130/1500000 [05:34<1023:45:47,  2.46s/it]                                                            0%|          | 130/1500000 [05:34<1023:45:47,  2.46s/it]{'loss': 3.2375, 'grad_norm': 7.890582084655762, 'learning_rate': 2.5999999999999998e-08, 'epoch': 130.0}
  0%|          | 131/1500000 [05:36<1020:33:19,  2.45s/it]                                                            0%|          | 131/1500000 [05:36<1020:33:19,  2.45s/it]{'loss': 3.2399, 'grad_norm': 8.182109832763672, 'learning_rate': 2.6200000000000003e-08, 'epoch': 131.0}
  0%|          | 132/1500000 [05:39<1051:15:20,  2.52s/it]                                                            0%|          | 132/1500000 [05:39<1051:15:20,  2.52s/it]{'loss': 3.2279, 'grad_norm': 8.078516006469727, 'learning_rate': 2.64e-08, 'epoch': 132.0}
  0%|          | 133/1500000 [05:41<1049:44:02,  2.52s/it]                                                            0%|          | 133/1500000 [05:41<1049:44:02,  2.52s/it]{'loss': 3.2228, 'grad_norm': 8.10155200958252, 'learning_rate': 2.66e-08, 'epoch': 133.0}
  0%|          | 134/1500000 [05:44<1039:34:18,  2.50s/it]                                                            0%|          | 134/1500000 [05:44<1039:34:18,  2.50s/it]{'loss': 3.225, 'grad_norm': 8.039090156555176, 'learning_rate': 2.6800000000000002e-08, 'epoch': 134.0}
  0%|          | 135/1500000 [05:46<1059:07:40,  2.54s/it]                                                            0%|          | 135/1500000 [05:46<1059:07:40,  2.54s/it]{'loss': 3.2277, 'grad_norm': 8.251450538635254, 'learning_rate': 2.7e-08, 'epoch': 135.0}
  0%|          | 136/1500000 [05:49<1041:22:23,  2.50s/it]                                                            0%|          | 136/1500000 [05:49<1041:22:23,  2.50s/it]{'loss': 3.2343, 'grad_norm': 7.966017246246338, 'learning_rate': 2.72e-08, 'epoch': 136.0}
  0%|          | 137/1500000 [05:51<1029:44:14,  2.47s/it]                                                            0%|          | 137/1500000 [05:51<1029:44:14,  2.47s/it]{'loss': 3.2284, 'grad_norm': 8.13560962677002, 'learning_rate': 2.74e-08, 'epoch': 137.0}
  0%|          | 138/1500000 [05:54<1022:49:31,  2.46s/it]                                                            0%|          | 138/1500000 [05:54<1022:49:31,  2.46s/it]{'loss': 3.2313, 'grad_norm': 8.015765190124512, 'learning_rate': 2.7600000000000002e-08, 'epoch': 138.0}
  0%|          | 139/1500000 [05:56<1016:38:59,  2.44s/it]                                                            0%|          | 139/1500000 [05:56<1016:38:59,  2.44s/it]{'loss': 3.2319, 'grad_norm': 9.321244239807129, 'learning_rate': 2.78e-08, 'epoch': 139.0}
  0%|          | 140/1500000 [05:59<1043:05:41,  2.50s/it]                                                            0%|          | 140/1500000 [05:59<1043:05:41,  2.50s/it]{'loss': 3.2218, 'grad_norm': 8.044794082641602, 'learning_rate': 2.8e-08, 'epoch': 140.0}
  0%|          | 141/1500000 [06:01<1032:43:32,  2.48s/it]                                                            0%|          | 141/1500000 [06:01<1032:43:32,  2.48s/it]{'loss': 3.2294, 'grad_norm': 8.10311508178711, 'learning_rate': 2.82e-08, 'epoch': 141.0}
  0%|          | 142/1500000 [06:04<1055:05:22,  2.53s/it]                                                            0%|          | 142/1500000 [06:04<1055:05:22,  2.53s/it]{'loss': 3.2222, 'grad_norm': 8.19692325592041, 'learning_rate': 2.84e-08, 'epoch': 142.0}
  0%|          | 143/1500000 [06:06<1035:31:41,  2.49s/it]                                                            0%|          | 143/1500000 [06:06<1035:31:41,  2.49s/it]{'loss': 3.2298, 'grad_norm': 8.289608001708984, 'learning_rate': 2.86e-08, 'epoch': 143.0}
  0%|          | 144/1500000 [06:09<1032:52:26,  2.48s/it]                                                            0%|          | 144/1500000 [06:09<1032:52:26,  2.48s/it]{'loss': 3.2274, 'grad_norm': 8.262533187866211, 'learning_rate': 2.88e-08, 'epoch': 144.0}
  0%|          | 145/1500000 [06:11<1034:01:59,  2.48s/it]                                                            0%|          | 145/1500000 [06:11<1034:01:59,  2.48s/it]{'loss': 3.2289, 'grad_norm': 8.3031587600708, 'learning_rate': 2.9e-08, 'epoch': 145.0}
  0%|          | 146/1500000 [06:13<1029:24:05,  2.47s/it]                                                            0%|          | 146/1500000 [06:13<1029:24:05,  2.47s/it]{'loss': 3.224, 'grad_norm': 8.226896286010742, 'learning_rate': 2.92e-08, 'epoch': 146.0}
  0%|          | 147/1500000 [06:16<1054:37:26,  2.53s/it]                                                            0%|          | 147/1500000 [06:16<1054:37:26,  2.53s/it]{'loss': 3.2241, 'grad_norm': 8.04518985748291, 'learning_rate': 2.94e-08, 'epoch': 147.0}
  0%|          | 148/1500000 [06:19<1078:01:12,  2.59s/it]                                                            0%|          | 148/1500000 [06:19<1078:01:12,  2.59s/it]{'loss': 3.2265, 'grad_norm': 8.058841705322266, 'learning_rate': 2.9600000000000004e-08, 'epoch': 148.0}
  0%|          | 149/1500000 [06:22<1090:04:31,  2.62s/it]                                                            0%|          | 149/1500000 [06:22<1090:04:31,  2.62s/it]{'loss': 3.2326, 'grad_norm': 8.173408508300781, 'learning_rate': 2.98e-08, 'epoch': 149.0}
  0%|          | 150/1500000 [06:24<1064:30:28,  2.56s/it]                                                            0%|          | 150/1500000 [06:24<1064:30:28,  2.56s/it]{'loss': 3.2203, 'grad_norm': 8.558274269104004, 'learning_rate': 3.0000000000000004e-08, 'epoch': 150.0}
  0%|          | 151/1500000 [06:26<1048:41:48,  2.52s/it]                                                            0%|          | 151/1500000 [06:26<1048:41:48,  2.52s/it]{'loss': 3.2176, 'grad_norm': 8.16901683807373, 'learning_rate': 3.02e-08, 'epoch': 151.0}
  0%|          | 152/1500000 [06:29<1043:56:49,  2.51s/it]                                                            0%|          | 152/1500000 [06:29<1043:56:49,  2.51s/it]{'loss': 3.2184, 'grad_norm': 9.26491928100586, 'learning_rate': 3.04e-08, 'epoch': 152.0}
  0%|          | 153/1500000 [06:31<1039:32:44,  2.50s/it]                                                            0%|          | 153/1500000 [06:31<1039:32:44,  2.50s/it]{'loss': 3.2266, 'grad_norm': 8.191729545593262, 'learning_rate': 3.06e-08, 'epoch': 153.0}
  0%|          | 154/1500000 [06:34<1030:21:29,  2.47s/it]                                                            0%|          | 154/1500000 [06:34<1030:21:29,  2.47s/it]{'loss': 3.206, 'grad_norm': 8.127795219421387, 'learning_rate': 3.08e-08, 'epoch': 154.0}
  0%|          | 155/1500000 [06:37<1063:59:08,  2.55s/it]                                                            0%|          | 155/1500000 [06:37<1063:59:08,  2.55s/it]{'loss': 3.218, 'grad_norm': 8.178193092346191, 'learning_rate': 3.1e-08, 'epoch': 155.0}
  0%|          | 156/1500000 [06:39<1055:46:10,  2.53s/it]                                                            0%|          | 156/1500000 [06:39<1055:46:10,  2.53s/it]{'loss': 3.2155, 'grad_norm': 8.324332237243652, 'learning_rate': 3.1199999999999995e-08, 'epoch': 156.0}
  0%|          | 157/1500000 [06:41<1047:06:54,  2.51s/it]                                                            0%|          | 157/1500000 [06:41<1047:06:54,  2.51s/it]{'loss': 3.2166, 'grad_norm': 8.211151123046875, 'learning_rate': 3.14e-08, 'epoch': 157.0}
  0%|          | 158/1500000 [06:44<1031:48:46,  2.48s/it]                                                            0%|          | 158/1500000 [06:44<1031:48:46,  2.48s/it]{'loss': 3.2194, 'grad_norm': 8.78722858428955, 'learning_rate': 3.1600000000000005e-08, 'epoch': 158.0}
  0%|          | 159/1500000 [06:46<1024:14:07,  2.46s/it]                                                            0%|          | 159/1500000 [06:46<1024:14:07,  2.46s/it]{'loss': 3.22, 'grad_norm': 8.153773307800293, 'learning_rate': 3.18e-08, 'epoch': 159.0}
  0%|          | 160/1500000 [06:49<1017:24:07,  2.44s/it]                                                            0%|          | 160/1500000 [06:49<1017:24:07,  2.44s/it]{'loss': 3.2177, 'grad_norm': 8.294212341308594, 'learning_rate': 3.2e-08, 'epoch': 160.0}
  0%|          | 161/1500000 [06:51<1012:56:52,  2.43s/it]                                                            0%|          | 161/1500000 [06:51<1012:56:52,  2.43s/it]{'loss': 3.2195, 'grad_norm': 8.364492416381836, 'learning_rate': 3.22e-08, 'epoch': 161.0}
  0%|          | 162/1500000 [06:54<1015:07:52,  2.44s/it]                                                            0%|          | 162/1500000 [06:54<1015:07:52,  2.44s/it]{'loss': 3.2114, 'grad_norm': 8.208487510681152, 'learning_rate': 3.24e-08, 'epoch': 162.0}
  0%|          | 163/1500000 [06:56<1042:06:13,  2.50s/it]                                                            0%|          | 163/1500000 [06:56<1042:06:13,  2.50s/it]{'loss': 3.2142, 'grad_norm': 8.124163627624512, 'learning_rate': 3.26e-08, 'epoch': 163.0}
  0%|          | 164/1500000 [06:59<1029:45:14,  2.47s/it]                                                            0%|          | 164/1500000 [06:59<1029:45:14,  2.47s/it]{'loss': 3.2121, 'grad_norm': 8.119972229003906, 'learning_rate': 3.28e-08, 'epoch': 164.0}
  0%|          | 165/1500000 [07:01<1026:23:37,  2.46s/it]                                                            0%|          | 165/1500000 [07:01<1026:23:37,  2.46s/it]{'loss': 3.2166, 'grad_norm': 8.202249526977539, 'learning_rate': 3.3000000000000004e-08, 'epoch': 165.0}
  0%|          | 166/1500000 [07:03<1018:58:01,  2.45s/it]                                                            0%|          | 166/1500000 [07:03<1018:58:01,  2.45s/it]{'loss': 3.2165, 'grad_norm': 8.323575019836426, 'learning_rate': 3.32e-08, 'epoch': 166.0}
  0%|          | 167/1500000 [07:06<1026:35:27,  2.46s/it]                                                            0%|          | 167/1500000 [07:06<1026:35:27,  2.46s/it]{'loss': 3.2065, 'grad_norm': 8.131233215332031, 'learning_rate': 3.34e-08, 'epoch': 167.0}
  0%|          | 168/1500000 [07:08<1023:28:18,  2.46s/it]                                                            0%|          | 168/1500000 [07:08<1023:28:18,  2.46s/it]{'loss': 3.2176, 'grad_norm': 8.181304931640625, 'learning_rate': 3.3599999999999996e-08, 'epoch': 168.0}
  0%|          | 169/1500000 [07:11<1024:35:40,  2.46s/it]                                                            0%|          | 169/1500000 [07:11<1024:35:40,  2.46s/it]{'loss': 3.2073, 'grad_norm': 8.769543647766113, 'learning_rate': 3.38e-08, 'epoch': 169.0}
  0%|          | 170/1500000 [07:13<1017:58:05,  2.44s/it]                                                            0%|          | 170/1500000 [07:13<1017:58:05,  2.44s/it]{'loss': 3.2191, 'grad_norm': 8.060589790344238, 'learning_rate': 3.4e-08, 'epoch': 170.0}
  0%|          | 171/1500000 [07:16<1016:20:09,  2.44s/it]                                                            0%|          | 171/1500000 [07:16<1016:20:09,  2.44s/it]{'loss': 3.2001, 'grad_norm': 8.291784286499023, 'learning_rate': 3.42e-08, 'epoch': 171.0}
  0%|          | 172/1500000 [07:18<1012:29:32,  2.43s/it]                                                            0%|          | 172/1500000 [07:18<1012:29:32,  2.43s/it]{'loss': 3.2019, 'grad_norm': 8.471121788024902, 'learning_rate': 3.4400000000000004e-08, 'epoch': 172.0}
  0%|          | 173/1500000 [07:21<1013:17:17,  2.43s/it]                                                            0%|          | 173/1500000 [07:21<1013:17:17,  2.43s/it]{'loss': 3.2115, 'grad_norm': 8.26877212524414, 'learning_rate': 3.46e-08, 'epoch': 173.0}
  0%|          | 174/1500000 [07:23<1043:50:59,  2.51s/it]                                                            0%|          | 174/1500000 [07:23<1043:50:59,  2.51s/it]{'loss': 3.2173, 'grad_norm': 8.478602409362793, 'learning_rate': 3.48e-08, 'epoch': 174.0}
  0%|          | 175/1500000 [07:26<1040:57:11,  2.50s/it]                                                            0%|          | 175/1500000 [07:26<1040:57:11,  2.50s/it]{'loss': 3.215, 'grad_norm': 8.17192268371582, 'learning_rate': 3.5e-08, 'epoch': 175.0}
  0%|          | 176/1500000 [07:28<1037:50:55,  2.49s/it]                                                            0%|          | 176/1500000 [07:28<1037:50:55,  2.49s/it]{'loss': 3.2109, 'grad_norm': 8.274635314941406, 'learning_rate': 3.52e-08, 'epoch': 176.0}
  0%|          | 177/1500000 [07:31<1032:06:14,  2.48s/it]                                                            0%|          | 177/1500000 [07:31<1032:06:14,  2.48s/it]{'loss': 3.2037, 'grad_norm': 8.269290924072266, 'learning_rate': 3.5400000000000006e-08, 'epoch': 177.0}
  0%|          | 178/1500000 [07:33<1029:26:28,  2.47s/it]                                                            0%|          | 178/1500000 [07:33<1029:26:28,  2.47s/it]{'loss': 3.1955, 'grad_norm': 8.319509506225586, 'learning_rate': 3.56e-08, 'epoch': 178.0}
  0%|          | 179/1500000 [07:36<1027:35:29,  2.47s/it]                                                            0%|          | 179/1500000 [07:36<1027:35:29,  2.47s/it]{'loss': 3.2055, 'grad_norm': 8.417264938354492, 'learning_rate': 3.58e-08, 'epoch': 179.0}
  0%|          | 180/1500000 [07:38<1015:14:39,  2.44s/it]                                                            0%|          | 180/1500000 [07:38<1015:14:39,  2.44s/it]{'loss': 3.2078, 'grad_norm': 8.6145601272583, 'learning_rate': 3.6e-08, 'epoch': 180.0}
  0%|          | 181/1500000 [07:40<1026:31:03,  2.46s/it]                                                            0%|          | 181/1500000 [07:40<1026:31:03,  2.46s/it]{'loss': 3.2095, 'grad_norm': 8.310412406921387, 'learning_rate': 3.62e-08, 'epoch': 181.0}
  0%|          | 182/1500000 [07:43<1023:56:38,  2.46s/it]                                                            0%|          | 182/1500000 [07:43<1023:56:38,  2.46s/it]{'loss': 3.2067, 'grad_norm': 8.280294418334961, 'learning_rate': 3.64e-08, 'epoch': 182.0}
  0%|          | 183/1500000 [07:45<1022:06:34,  2.45s/it]                                                            0%|          | 183/1500000 [07:45<1022:06:34,  2.45s/it]{'loss': 3.1998, 'grad_norm': 8.376800537109375, 'learning_rate': 3.66e-08, 'epoch': 183.0}
  0%|          | 184/1500000 [07:48<1022:28:32,  2.45s/it]                                                            0%|          | 184/1500000 [07:48<1022:28:32,  2.45s/it]{'loss': 3.2089, 'grad_norm': 8.470650672912598, 'learning_rate': 3.6800000000000005e-08, 'epoch': 184.0}
  0%|          | 185/1500000 [07:50<1015:40:42,  2.44s/it]                                                            0%|          | 185/1500000 [07:50<1015:40:42,  2.44s/it]{'loss': 3.1894, 'grad_norm': 8.382513046264648, 'learning_rate': 3.7e-08, 'epoch': 185.0}
  0%|          | 186/1500000 [07:53<1014:34:44,  2.44s/it]                                                            0%|          | 186/1500000 [07:53<1014:34:44,  2.44s/it]{'loss': 3.1952, 'grad_norm': 8.303850173950195, 'learning_rate': 3.72e-08, 'epoch': 186.0}
  0%|          | 187/1500000 [07:55<1021:19:34,  2.45s/it]                                                            0%|          | 187/1500000 [07:55<1021:19:34,  2.45s/it]{'loss': 3.1812, 'grad_norm': 8.514239311218262, 'learning_rate': 3.7400000000000004e-08, 'epoch': 187.0}
  0%|          | 188/1500000 [07:58<1024:42:14,  2.46s/it]                                                            0%|          | 188/1500000 [07:58<1024:42:14,  2.46s/it]{'loss': 3.1845, 'grad_norm': 8.305682182312012, 'learning_rate': 3.76e-08, 'epoch': 188.0}
  0%|          | 189/1500000 [08:00<1020:26:15,  2.45s/it]                                                            0%|          | 189/1500000 [08:00<1020:26:15,  2.45s/it]{'loss': 3.1944, 'grad_norm': 8.524155616760254, 'learning_rate': 3.78e-08, 'epoch': 189.0}
  0%|          | 190/1500000 [08:02<1017:13:53,  2.44s/it]                                                            0%|          | 190/1500000 [08:02<1017:13:53,  2.44s/it]{'loss': 3.1974, 'grad_norm': 8.367938041687012, 'learning_rate': 3.7999999999999996e-08, 'epoch': 190.0}
  0%|          | 191/1500000 [08:05<1051:59:39,  2.53s/it]                                                            0%|          | 191/1500000 [08:05<1051:59:39,  2.53s/it]{'loss': 3.1933, 'grad_norm': 8.361860275268555, 'learning_rate': 3.8200000000000005e-08, 'epoch': 191.0}
  0%|          | 192/1500000 [08:08<1082:53:08,  2.60s/it]                                                            0%|          | 192/1500000 [08:08<1082:53:08,  2.60s/it]{'loss': 3.1875, 'grad_norm': 8.627732276916504, 'learning_rate': 3.8400000000000006e-08, 'epoch': 192.0}
  0%|          | 193/1500000 [08:10<1058:16:34,  2.54s/it]                                                            0%|          | 193/1500000 [08:10<1058:16:34,  2.54s/it]{'loss': 3.1941, 'grad_norm': 9.677059173583984, 'learning_rate': 3.86e-08, 'epoch': 193.0}
  0%|          | 194/1500000 [08:13<1042:14:09,  2.50s/it]                                                            0%|          | 194/1500000 [08:13<1042:14:09,  2.50s/it]{'loss': 3.1814, 'grad_norm': 8.305781364440918, 'learning_rate': 3.8800000000000003e-08, 'epoch': 194.0}
  0%|          | 195/1500000 [08:15<1032:23:56,  2.48s/it]                                                            0%|          | 195/1500000 [08:15<1032:23:56,  2.48s/it]{'loss': 3.1807, 'grad_norm': 8.335265159606934, 'learning_rate': 3.9e-08, 'epoch': 195.0}
  0%|          | 196/1500000 [08:18<1020:18:17,  2.45s/it]                                                            0%|          | 196/1500000 [08:18<1020:18:17,  2.45s/it]{'loss': 3.1939, 'grad_norm': 8.428312301635742, 'learning_rate': 3.92e-08, 'epoch': 196.0}
  0%|          | 197/1500000 [08:20<1012:53:41,  2.43s/it]                                                            0%|          | 197/1500000 [08:20<1012:53:41,  2.43s/it]{'loss': 3.1957, 'grad_norm': 8.207341194152832, 'learning_rate': 3.9399999999999995e-08, 'epoch': 197.0}
  0%|          | 198/1500000 [08:22<1021:37:20,  2.45s/it]                                                            0%|          | 198/1500000 [08:22<1021:37:20,  2.45s/it]{'loss': 3.1957, 'grad_norm': nan, 'learning_rate': 3.9399999999999995e-08, 'epoch': 198.0}
  0%|          | 199/1500000 [08:25<1011:11:13,  2.43s/it]                                                            0%|          | 199/1500000 [08:25<1011:11:13,  2.43s/it]{'loss': 3.1936, 'grad_norm': 8.311245918273926, 'learning_rate': 3.9600000000000004e-08, 'epoch': 199.0}
  0%|          | 200/1500000 [08:27<1018:58:41,  2.45s/it]                                                            0%|          | 200/1500000 [08:27<1018:58:41,  2.45s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 3.1973, 'grad_norm': 8.500992774963379, 'learning_rate': 3.9800000000000006e-08, 'epoch': 200.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.21it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.11s/it][A
 57%|█████▋    | 4/7 [00:05<00:04,  1.40s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.36s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.32s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.00it/s][A                                                          
                                             [A  0%|          | 200/1500000 [09:11<1018:58:41,  2.45s/it]
100%|██████████| 7/7 [00:08<00:00,  1.00it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200/added_tokens.json
{'eval_loss': 6.627596855163574, 'eval_wer': 1.0370327906443477, 'eval_cer': 1.6332974348932838, 'eval_runtime': 17.454, 'eval_samples_per_second': 56.319, 'eval_steps_per_second': 0.401, 'epoch': 200.0}
  0%|          | 201/1500000 [09:23<7737:35:26, 18.57s/it]                                                            0%|          | 201/1500000 [09:23<7737:35:26, 18.57s/it]{'loss': 3.1858, 'grad_norm': 8.369904518127441, 'learning_rate': 4e-08, 'epoch': 201.0}
  0%|          | 202/1500000 [09:26<5721:13:49, 13.73s/it]                                                            0%|          | 202/1500000 [09:26<5721:13:49, 13.73s/it]{'loss': 3.1933, 'grad_norm': 8.401923179626465, 'learning_rate': 4.02e-08, 'epoch': 202.0}
  0%|          | 203/1500000 [09:28<4316:15:52, 10.36s/it]                                                            0%|          | 203/1500000 [09:28<4316:15:52, 10.36s/it]{'loss': 3.1901, 'grad_norm': 8.336366653442383, 'learning_rate': 4.04e-08, 'epoch': 203.0}
  0%|          | 204/1500000 [09:31<3316:35:58,  7.96s/it]                                                            0%|          | 204/1500000 [09:31<3316:35:58,  7.96s/it]{'loss': 3.1842, 'grad_norm': 8.462902069091797, 'learning_rate': 4.06e-08, 'epoch': 204.0}
  0%|          | 205/1500000 [09:33<2660:19:27,  6.39s/it]                                                            0%|          | 205/1500000 [09:33<2660:19:27,  6.39s/it]{'loss': 3.1899, 'grad_norm': 8.538492202758789, 'learning_rate': 4.08e-08, 'epoch': 205.0}
  0%|          | 206/1500000 [09:36<2193:53:07,  5.27s/it]                                                            0%|          | 206/1500000 [09:36<2193:53:07,  5.27s/it]{'loss': 3.1868, 'grad_norm': 8.522616386413574, 'learning_rate': 4.1e-08, 'epoch': 206.0}
  0%|          | 207/1500000 [09:39<1843:10:10,  4.42s/it]                                                            0%|          | 207/1500000 [09:39<1843:10:10,  4.42s/it]{'loss': 3.1794, 'grad_norm': 8.443174362182617, 'learning_rate': 4.1200000000000005e-08, 'epoch': 207.0}
  0%|          | 208/1500000 [09:41<1593:35:19,  3.83s/it]                                                            0%|          | 208/1500000 [09:41<1593:35:19,  3.83s/it]{'loss': 3.1734, 'grad_norm': 8.22301197052002, 'learning_rate': 4.14e-08, 'epoch': 208.0}
  0%|          | 209/1500000 [09:43<1416:46:34,  3.40s/it]                                                            0%|          | 209/1500000 [09:43<1416:46:34,  3.40s/it]{'loss': 3.1826, 'grad_norm': 8.367218971252441, 'learning_rate': 4.16e-08, 'epoch': 209.0}
  0%|          | 210/1500000 [09:46<1322:03:46,  3.17s/it]                                                            0%|          | 210/1500000 [09:46<1322:03:46,  3.17s/it]{'loss': 3.1807, 'grad_norm': 8.390737533569336, 'learning_rate': 4.18e-08, 'epoch': 210.0}
  0%|          | 211/1500000 [09:48<1229:34:49,  2.95s/it]                                                            0%|          | 211/1500000 [09:49<1229:34:49,  2.95s/it]{'loss': 3.1814, 'grad_norm': 8.397665977478027, 'learning_rate': 4.2e-08, 'epoch': 211.0}
  0%|          | 212/1500000 [09:51<1175:48:57,  2.82s/it]                                                            0%|          | 212/1500000 [09:51<1175:48:57,  2.82s/it]{'loss': 3.184, 'grad_norm': 8.424538612365723, 'learning_rate': 4.22e-08, 'epoch': 212.0}
  0%|          | 213/1500000 [09:54<1141:25:52,  2.74s/it]                                                            0%|          | 213/1500000 [09:54<1141:25:52,  2.74s/it]{'loss': 3.1826, 'grad_norm': 8.517566680908203, 'learning_rate': 4.24e-08, 'epoch': 213.0}
  0%|          | 214/1500000 [09:56<1132:46:42,  2.72s/it]                                                            0%|          | 214/1500000 [09:56<1132:46:42,  2.72s/it]{'loss': 3.1766, 'grad_norm': 8.391560554504395, 'learning_rate': 4.2600000000000004e-08, 'epoch': 214.0}
  0%|          | 215/1500000 [09:59<1096:21:07,  2.63s/it]                                                            0%|          | 215/1500000 [09:59<1096:21:07,  2.63s/it]{'loss': 3.1747, 'grad_norm': 8.52753734588623, 'learning_rate': 4.28e-08, 'epoch': 215.0}
  0%|          | 216/1500000 [10:01<1071:34:26,  2.57s/it]                                                            0%|          | 216/1500000 [10:01<1071:34:26,  2.57s/it]{'loss': 3.1869, 'grad_norm': 8.463068008422852, 'learning_rate': 4.3e-08, 'epoch': 216.0}
  0%|          | 217/1500000 [10:04<1062:36:43,  2.55s/it]                                                            0%|          | 217/1500000 [10:04<1062:36:43,  2.55s/it]{'loss': 3.172, 'grad_norm': 8.469808578491211, 'learning_rate': 4.32e-08, 'epoch': 217.0}
  0%|          | 218/1500000 [10:06<1046:24:04,  2.51s/it]                                                            0%|          | 218/1500000 [10:06<1046:24:04,  2.51s/it]{'loss': 3.1827, 'grad_norm': 9.514083862304688, 'learning_rate': 4.34e-08, 'epoch': 218.0}
  0%|          | 219/1500000 [10:08<1035:37:31,  2.49s/it]                                                            0%|          | 219/1500000 [10:08<1035:37:31,  2.49s/it]{'loss': 3.1651, 'grad_norm': 8.877086639404297, 'learning_rate': 4.36e-08, 'epoch': 219.0}
  0%|          | 220/1500000 [10:11<1026:45:35,  2.46s/it]                                                            0%|          | 220/1500000 [10:11<1026:45:35,  2.46s/it]{'loss': 3.1846, 'grad_norm': 8.46924114227295, 'learning_rate': 4.38e-08, 'epoch': 220.0}
  0%|          | 221/1500000 [10:13<1021:42:17,  2.45s/it]                                                            0%|          | 221/1500000 [10:13<1021:42:17,  2.45s/it]{'loss': 3.1732, 'grad_norm': 8.592759132385254, 'learning_rate': 4.4000000000000004e-08, 'epoch': 221.0}
  0%|          | 222/1500000 [10:16<1049:25:20,  2.52s/it]                                                            0%|          | 222/1500000 [10:16<1049:25:20,  2.52s/it]{'loss': 3.1695, 'grad_norm': 10.295547485351562, 'learning_rate': 4.4200000000000005e-08, 'epoch': 222.0}
  0%|          | 223/1500000 [10:18<1043:24:48,  2.50s/it]                                                            0%|          | 223/1500000 [10:18<1043:24:48,  2.50s/it]{'loss': 3.1724, 'grad_norm': 8.636563301086426, 'learning_rate': 4.44e-08, 'epoch': 223.0}
  0%|          | 224/1500000 [10:21<1063:26:46,  2.55s/it]                                                            0%|          | 224/1500000 [10:21<1063:26:46,  2.55s/it]{'loss': 3.1768, 'grad_norm': 8.420280456542969, 'learning_rate': 4.46e-08, 'epoch': 224.0}
  0%|          | 225/1500000 [10:23<1044:54:46,  2.51s/it]                                                            0%|          | 225/1500000 [10:24<1044:54:46,  2.51s/it]{'loss': 3.1685, 'grad_norm': 8.535690307617188, 'learning_rate': 4.48e-08, 'epoch': 225.0}
  0%|          | 226/1500000 [10:26<1072:55:58,  2.58s/it]                                                            0%|          | 226/1500000 [10:26<1072:55:58,  2.58s/it]{'loss': 3.1643, 'grad_norm': 19.59537696838379, 'learning_rate': 4.5e-08, 'epoch': 226.0}
  0%|          | 227/1500000 [10:29<1100:00:03,  2.64s/it]                                                            0%|          | 227/1500000 [10:29<1100:00:03,  2.64s/it]{'loss': 3.1752, 'grad_norm': 8.54714298248291, 'learning_rate': 4.52e-08, 'epoch': 227.0}
  0%|          | 228/1500000 [10:32<1119:46:24,  2.69s/it]                                                            0%|          | 228/1500000 [10:32<1119:46:24,  2.69s/it]{'loss': 3.169, 'grad_norm': 8.66202163696289, 'learning_rate': 4.54e-08, 'epoch': 228.0}
  0%|          | 229/1500000 [10:34<1101:05:45,  2.64s/it]                                                            0%|          | 229/1500000 [10:34<1101:05:45,  2.64s/it]{'loss': 3.1634, 'grad_norm': 8.496639251708984, 'learning_rate': 4.5600000000000005e-08, 'epoch': 229.0}
  0%|          | 230/1500000 [10:37<1069:15:57,  2.57s/it]                                                            0%|          | 230/1500000 [10:37<1069:15:57,  2.57s/it]{'loss': 3.1688, 'grad_norm': 8.685657501220703, 'learning_rate': 4.58e-08, 'epoch': 230.0}
  0%|          | 231/1500000 [10:39<1050:57:16,  2.52s/it]                                                            0%|          | 231/1500000 [10:39<1050:57:16,  2.52s/it]{'loss': 3.1714, 'grad_norm': 8.496235847473145, 'learning_rate': 4.6e-08, 'epoch': 231.0}
  0%|          | 232/1500000 [10:42<1046:14:33,  2.51s/it]                                                            0%|          | 232/1500000 [10:42<1046:14:33,  2.51s/it]{'loss': 3.1613, 'grad_norm': 8.627552032470703, 'learning_rate': 4.62e-08, 'epoch': 232.0}
  0%|          | 233/1500000 [10:44<1031:33:15,  2.48s/it]                                                            0%|          | 233/1500000 [10:44<1031:33:15,  2.48s/it]{'loss': 3.1581, 'grad_norm': 8.737117767333984, 'learning_rate': 4.64e-08, 'epoch': 233.0}
  0%|          | 234/1500000 [10:47<1028:53:12,  2.47s/it]                                                            0%|          | 234/1500000 [10:47<1028:53:12,  2.47s/it]{'loss': 3.1671, 'grad_norm': 8.582502365112305, 'learning_rate': 4.660000000000001e-08, 'epoch': 234.0}
  0%|          | 235/1500000 [10:49<1036:56:01,  2.49s/it]                                                            0%|          | 235/1500000 [10:49<1036:56:01,  2.49s/it]{'loss': 3.1562, 'grad_norm': 8.461864471435547, 'learning_rate': 4.68e-08, 'epoch': 235.0}
  0%|          | 236/1500000 [10:51<1026:31:36,  2.46s/it]                                                            0%|          | 236/1500000 [10:51<1026:31:36,  2.46s/it]{'loss': 3.1559, 'grad_norm': 8.715734481811523, 'learning_rate': 4.7000000000000004e-08, 'epoch': 236.0}
  0%|          | 237/1500000 [10:54<1026:21:53,  2.46s/it]                                                            0%|          | 237/1500000 [10:54<1026:21:53,  2.46s/it]{'loss': 3.1574, 'grad_norm': 8.730008125305176, 'learning_rate': 4.72e-08, 'epoch': 237.0}
  0%|          | 238/1500000 [10:57<1061:51:23,  2.55s/it]                                                            0%|          | 238/1500000 [10:57<1061:51:23,  2.55s/it]{'loss': 3.1478, 'grad_norm': 8.751777648925781, 'learning_rate': 4.74e-08, 'epoch': 238.0}
  0%|          | 239/1500000 [10:59<1078:30:00,  2.59s/it]                                                            0%|          | 239/1500000 [10:59<1078:30:00,  2.59s/it]{'loss': 3.1593, 'grad_norm': 8.69856071472168, 'learning_rate': 4.7599999999999996e-08, 'epoch': 239.0}
  0%|          | 240/1500000 [11:02<1056:14:23,  2.54s/it]                                                            0%|          | 240/1500000 [11:02<1056:14:23,  2.54s/it]{'loss': 3.1531, 'grad_norm': 8.644991874694824, 'learning_rate': 4.78e-08, 'epoch': 240.0}
  0%|          | 241/1500000 [11:04<1045:58:51,  2.51s/it]                                                            0%|          | 241/1500000 [11:04<1045:58:51,  2.51s/it]{'loss': 3.1479, 'grad_norm': 8.767114639282227, 'learning_rate': 4.8000000000000006e-08, 'epoch': 241.0}
  0%|          | 242/1500000 [11:07<1049:33:02,  2.52s/it]                                                            0%|          | 242/1500000 [11:07<1049:33:02,  2.52s/it]{'loss': 3.1737, 'grad_norm': 8.601320266723633, 'learning_rate': 4.82e-08, 'epoch': 242.0}
  0%|          | 243/1500000 [11:09<1064:35:26,  2.56s/it]                                                            0%|          | 243/1500000 [11:09<1064:35:26,  2.56s/it]{'loss': 3.1565, 'grad_norm': 8.767480850219727, 'learning_rate': 4.84e-08, 'epoch': 243.0}
  0%|          | 244/1500000 [11:12<1047:10:42,  2.51s/it]                                                            0%|          | 244/1500000 [11:12<1047:10:42,  2.51s/it]{'loss': 3.1492, 'grad_norm': 8.9751615524292, 'learning_rate': 4.86e-08, 'epoch': 244.0}
  0%|          | 245/1500000 [11:14<1031:40:42,  2.48s/it]                                                            0%|          | 245/1500000 [11:14<1031:40:42,  2.48s/it]{'loss': 3.1524, 'grad_norm': 8.869682312011719, 'learning_rate': 4.88e-08, 'epoch': 245.0}
  0%|          | 246/1500000 [11:17<1015:51:19,  2.44s/it]                                                            0%|          | 246/1500000 [11:17<1015:51:19,  2.44s/it]{'loss': 3.1621, 'grad_norm': 8.673667907714844, 'learning_rate': 4.9e-08, 'epoch': 246.0}
  0%|          | 247/1500000 [11:19<1006:36:42,  2.42s/it]                                                            0%|          | 247/1500000 [11:19<1006:36:42,  2.42s/it]{'loss': 3.146, 'grad_norm': 8.618142127990723, 'learning_rate': 4.92e-08, 'epoch': 247.0}
  0%|          | 248/1500000 [11:21<999:51:39,  2.40s/it]                                                            0%|          | 248/1500000 [11:21<999:51:39,  2.40s/it]{'loss': 3.1503, 'grad_norm': 8.522871971130371, 'learning_rate': 4.9400000000000006e-08, 'epoch': 248.0}
  0%|          | 249/1500000 [11:24<1032:56:09,  2.48s/it]                                                            0%|          | 249/1500000 [11:24<1032:56:09,  2.48s/it]{'loss': 3.1485, 'grad_norm': 8.781572341918945, 'learning_rate': 4.96e-08, 'epoch': 249.0}
  0%|          | 250/1500000 [11:26<1025:17:50,  2.46s/it]                                                            0%|          | 250/1500000 [11:26<1025:17:50,  2.46s/it]{'loss': 3.1496, 'grad_norm': 8.756552696228027, 'learning_rate': 4.98e-08, 'epoch': 250.0}
  0%|          | 251/1500000 [11:29<1016:59:20,  2.44s/it]                                                            0%|          | 251/1500000 [11:29<1016:59:20,  2.44s/it]{'loss': 3.1602, 'grad_norm': 8.637633323669434, 'learning_rate': 5.0000000000000004e-08, 'epoch': 251.0}
  0%|          | 252/1500000 [11:31<1008:01:17,  2.42s/it]                                                            0%|          | 252/1500000 [11:31<1008:01:17,  2.42s/it]{'loss': 3.1437, 'grad_norm': 8.565536499023438, 'learning_rate': 5.02e-08, 'epoch': 252.0}
  0%|          | 253/1500000 [11:33<998:24:04,  2.40s/it]                                                            0%|          | 253/1500000 [11:33<998:24:04,  2.40s/it]{'loss': 3.1482, 'grad_norm': 8.9371976852417, 'learning_rate': 5.04e-08, 'epoch': 253.0}
  0%|          | 254/1500000 [11:36<1032:45:17,  2.48s/it]                                                            0%|          | 254/1500000 [11:36<1032:45:17,  2.48s/it]{'loss': 3.1355, 'grad_norm': 8.580368041992188, 'learning_rate': 5.0599999999999996e-08, 'epoch': 254.0}
  0%|          | 255/1500000 [11:39<1054:50:33,  2.53s/it]                                                            0%|          | 255/1500000 [11:39<1054:50:33,  2.53s/it]{'loss': 3.1519, 'grad_norm': 8.672464370727539, 'learning_rate': 5.0800000000000005e-08, 'epoch': 255.0}
  0%|          | 256/1500000 [11:41<1050:34:18,  2.52s/it]                                                            0%|          | 256/1500000 [11:41<1050:34:18,  2.52s/it]{'loss': 3.1489, 'grad_norm': 8.580406188964844, 'learning_rate': 5.1e-08, 'epoch': 256.0}
  0%|          | 257/1500000 [11:44<1066:46:09,  2.56s/it]                                                            0%|          | 257/1500000 [11:44<1066:46:09,  2.56s/it]{'loss': 3.1353, 'grad_norm': 11.172287940979004, 'learning_rate': 5.12e-08, 'epoch': 257.0}
  0%|          | 258/1500000 [11:46<1042:57:38,  2.50s/it]                                                            0%|          | 258/1500000 [11:46<1042:57:38,  2.50s/it]{'loss': 3.1323, 'grad_norm': 9.023455619812012, 'learning_rate': 5.1400000000000004e-08, 'epoch': 258.0}
  0%|          | 259/1500000 [11:49<1060:58:36,  2.55s/it]                                                            0%|          | 259/1500000 [11:49<1060:58:36,  2.55s/it]{'loss': 3.1415, 'grad_norm': 8.86875057220459, 'learning_rate': 5.16e-08, 'epoch': 259.0}
  0%|          | 260/1500000 [11:51<1037:02:45,  2.49s/it]                                                            0%|          | 260/1500000 [11:51<1037:02:45,  2.49s/it]{'loss': 3.1419, 'grad_norm': 8.722909927368164, 'learning_rate': 5.18e-08, 'epoch': 260.0}
  0%|          | 261/1500000 [11:54<1023:25:17,  2.46s/it]                                                            0%|          | 261/1500000 [11:54<1023:25:17,  2.46s/it]{'loss': 3.1404, 'grad_norm': 8.718707084655762, 'learning_rate': 5.1999999999999996e-08, 'epoch': 261.0}
  0%|          | 262/1500000 [11:56<1015:46:32,  2.44s/it]                                                            0%|          | 262/1500000 [11:56<1015:46:32,  2.44s/it]{'loss': 3.1366, 'grad_norm': 8.683340072631836, 'learning_rate': 5.2200000000000004e-08, 'epoch': 262.0}
  0%|          | 263/1500000 [11:58<1002:45:06,  2.41s/it]                                                            0%|          | 263/1500000 [11:58<1002:45:06,  2.41s/it]{'loss': 3.1264, 'grad_norm': 8.815494537353516, 'learning_rate': 5.2400000000000006e-08, 'epoch': 263.0}
  0%|          | 264/1500000 [12:01<1010:28:02,  2.43s/it]                                                            0%|          | 264/1500000 [12:01<1010:28:02,  2.43s/it]{'loss': 3.1395, 'grad_norm': 8.887965202331543, 'learning_rate': 5.26e-08, 'epoch': 264.0}
  0%|          | 265/1500000 [12:03<1020:46:42,  2.45s/it]                                                            0%|          | 265/1500000 [12:03<1020:46:42,  2.45s/it]{'loss': 3.1317, 'grad_norm': 8.822702407836914, 'learning_rate': 5.28e-08, 'epoch': 265.0}
  0%|          | 266/1500000 [12:06<1013:49:13,  2.43s/it]                                                            0%|          | 266/1500000 [12:06<1013:49:13,  2.43s/it]{'loss': 3.1352, 'grad_norm': 8.705772399902344, 'learning_rate': 5.3e-08, 'epoch': 266.0}
  0%|          | 267/1500000 [12:08<1032:23:08,  2.48s/it]                                                            0%|          | 267/1500000 [12:08<1032:23:08,  2.48s/it]{'loss': 3.14, 'grad_norm': 8.891758918762207, 'learning_rate': 5.32e-08, 'epoch': 267.0}
  0%|          | 268/1500000 [12:11<1056:26:01,  2.54s/it]                                                            0%|          | 268/1500000 [12:11<1056:26:01,  2.54s/it]{'loss': 3.1258, 'grad_norm': 8.593454360961914, 'learning_rate': 5.3399999999999995e-08, 'epoch': 268.0}
  0%|          | 269/1500000 [12:13<1042:25:47,  2.50s/it]                                                            0%|          | 269/1500000 [12:13<1042:25:47,  2.50s/it]{'loss': 3.1402, 'grad_norm': 8.72055721282959, 'learning_rate': 5.3600000000000004e-08, 'epoch': 269.0}
  0%|          | 270/1500000 [12:16<1034:14:01,  2.48s/it]                                                            0%|          | 270/1500000 [12:16<1034:14:01,  2.48s/it]{'loss': 3.1343, 'grad_norm': 9.150496482849121, 'learning_rate': 5.3800000000000005e-08, 'epoch': 270.0}
  0%|          | 271/1500000 [12:18<1022:37:01,  2.45s/it]                                                            0%|          | 271/1500000 [12:18<1022:37:01,  2.45s/it]{'loss': 3.1296, 'grad_norm': 8.897342681884766, 'learning_rate': 5.4e-08, 'epoch': 271.0}
  0%|          | 272/1500000 [12:21<1015:00:22,  2.44s/it]                                                            0%|          | 272/1500000 [12:21<1015:00:22,  2.44s/it]{'loss': 3.1304, 'grad_norm': 8.772787094116211, 'learning_rate': 5.42e-08, 'epoch': 272.0}
  0%|          | 273/1500000 [12:23<1042:47:17,  2.50s/it]                                                            0%|          | 273/1500000 [12:23<1042:47:17,  2.50s/it]{'loss': 3.1288, 'grad_norm': 8.70700454711914, 'learning_rate': 5.44e-08, 'epoch': 273.0}
  0%|          | 274/1500000 [12:26<1063:45:50,  2.55s/it]                                                            0%|          | 274/1500000 [12:26<1063:45:50,  2.55s/it]{'loss': 3.1272, 'grad_norm': 8.8949613571167, 'learning_rate': 5.46e-08, 'epoch': 274.0}
  0%|          | 275/1500000 [12:29<1078:41:28,  2.59s/it]                                                            0%|          | 275/1500000 [12:29<1078:41:28,  2.59s/it]{'loss': 3.123, 'grad_norm': 8.76871395111084, 'learning_rate': 5.48e-08, 'epoch': 275.0}
  0%|          | 276/1500000 [12:31<1059:27:24,  2.54s/it]                                                            0%|          | 276/1500000 [12:31<1059:27:24,  2.54s/it]{'loss': 3.1179, 'grad_norm': 8.962861061096191, 'learning_rate': 5.5e-08, 'epoch': 276.0}
  0%|          | 277/1500000 [12:34<1042:25:46,  2.50s/it]                                                            0%|          | 277/1500000 [12:34<1042:25:46,  2.50s/it]{'loss': 3.1241, 'grad_norm': 9.07037353515625, 'learning_rate': 5.5200000000000005e-08, 'epoch': 277.0}
  0%|          | 278/1500000 [12:36<1031:06:23,  2.48s/it]                                                            0%|          | 278/1500000 [12:36<1031:06:23,  2.48s/it]{'loss': 3.1094, 'grad_norm': 8.927360534667969, 'learning_rate': 5.54e-08, 'epoch': 278.0}
  0%|          | 279/1500000 [12:38<1015:03:22,  2.44s/it]                                                            0%|          | 279/1500000 [12:38<1015:03:22,  2.44s/it]{'loss': 3.1143, 'grad_norm': 8.91888427734375, 'learning_rate': 5.56e-08, 'epoch': 279.0}
  0%|          | 280/1500000 [12:41<1026:08:50,  2.46s/it]                                                            0%|          | 280/1500000 [12:41<1026:08:50,  2.46s/it]{'loss': 3.1195, 'grad_norm': 8.718364715576172, 'learning_rate': 5.5800000000000003e-08, 'epoch': 280.0}
  0%|          | 281/1500000 [12:43<1026:24:47,  2.46s/it]                                                            0%|          | 281/1500000 [12:43<1026:24:47,  2.46s/it]{'loss': 3.1166, 'grad_norm': 8.927876472473145, 'learning_rate': 5.6e-08, 'epoch': 281.0}
  0%|          | 282/1500000 [12:46<1022:51:43,  2.46s/it]                                                            0%|          | 282/1500000 [12:46<1022:51:43,  2.46s/it]{'loss': 3.1076, 'grad_norm': 9.100890159606934, 'learning_rate': 5.62e-08, 'epoch': 282.0}
  0%|          | 283/1500000 [12:48<1053:42:29,  2.53s/it]                                                            0%|          | 283/1500000 [12:48<1053:42:29,  2.53s/it]{'loss': 3.1101, 'grad_norm': 9.09095287322998, 'learning_rate': 5.64e-08, 'epoch': 283.0}
  0%|          | 284/1500000 [12:51<1031:30:08,  2.48s/it]                                                            0%|          | 284/1500000 [12:51<1031:30:08,  2.48s/it]{'loss': 3.1126, 'grad_norm': 9.79349422454834, 'learning_rate': 5.6600000000000004e-08, 'epoch': 284.0}
  0%|          | 285/1500000 [12:53<1018:23:52,  2.44s/it]                                                            0%|          | 285/1500000 [12:53<1018:23:52,  2.44s/it]{'loss': 3.1158, 'grad_norm': 8.973342895507812, 'learning_rate': 5.68e-08, 'epoch': 285.0}
  0%|          | 286/1500000 [12:56<1046:07:55,  2.51s/it]                                                            0%|          | 286/1500000 [12:56<1046:07:55,  2.51s/it]{'loss': 3.1156, 'grad_norm': 9.217845916748047, 'learning_rate': 5.7e-08, 'epoch': 286.0}
  0%|          | 287/1500000 [12:59<1077:03:00,  2.59s/it]                                                            0%|          | 287/1500000 [12:59<1077:03:00,  2.59s/it]{'loss': 3.1067, 'grad_norm': 8.860499382019043, 'learning_rate': 5.72e-08, 'epoch': 287.0}
  0%|          | 288/1500000 [13:01<1058:33:17,  2.54s/it]                                                            0%|          | 288/1500000 [13:01<1058:33:17,  2.54s/it]{'loss': 3.109, 'grad_norm': 8.980433464050293, 'learning_rate': 5.74e-08, 'epoch': 288.0}
  0%|          | 289/1500000 [13:04<1070:59:55,  2.57s/it]                                                            0%|          | 289/1500000 [13:04<1070:59:55,  2.57s/it]{'loss': 3.0982, 'grad_norm': 9.07761001586914, 'learning_rate': 5.76e-08, 'epoch': 289.0}
  0%|          | 290/1500000 [13:06<1041:26:20,  2.50s/it]                                                            0%|          | 290/1500000 [13:06<1041:26:20,  2.50s/it]{'loss': 3.0973, 'grad_norm': 8.986517906188965, 'learning_rate': 5.78e-08, 'epoch': 290.0}
  0%|          | 291/1500000 [13:09<1069:07:48,  2.57s/it]                                                            0%|          | 291/1500000 [13:09<1069:07:48,  2.57s/it]{'loss': 3.1049, 'grad_norm': 9.110330581665039, 'learning_rate': 5.8e-08, 'epoch': 291.0}
  0%|          | 292/1500000 [13:11<1080:26:26,  2.59s/it]                                                            0%|          | 292/1500000 [13:11<1080:26:26,  2.59s/it]{'loss': 3.1051, 'grad_norm': 9.044951438903809, 'learning_rate': 5.8200000000000005e-08, 'epoch': 292.0}
  0%|          | 293/1500000 [13:14<1065:46:32,  2.56s/it]                                                            0%|          | 293/1500000 [13:14<1065:46:32,  2.56s/it]{'loss': 3.0967, 'grad_norm': 9.158952713012695, 'learning_rate': 5.84e-08, 'epoch': 293.0}
  0%|          | 294/1500000 [13:16<1039:09:58,  2.49s/it]                                                            0%|          | 294/1500000 [13:16<1039:09:58,  2.49s/it]{'loss': 3.0985, 'grad_norm': 9.06822681427002, 'learning_rate': 5.86e-08, 'epoch': 294.0}
  0%|          | 295/1500000 [13:19<1024:27:26,  2.46s/it]                                                            0%|          | 295/1500000 [13:19<1024:27:26,  2.46s/it]{'loss': 3.1061, 'grad_norm': 9.003339767456055, 'learning_rate': 5.88e-08, 'epoch': 295.0}
  0%|          | 296/1500000 [13:21<1011:48:09,  2.43s/it]                                                            0%|          | 296/1500000 [13:21<1011:48:09,  2.43s/it]{'loss': 3.1011, 'grad_norm': 8.976287841796875, 'learning_rate': 5.9e-08, 'epoch': 296.0}
  0%|          | 297/1500000 [13:23<1009:01:57,  2.42s/it]                                                            0%|          | 297/1500000 [13:23<1009:01:57,  2.42s/it]{'loss': 3.0989, 'grad_norm': 9.201789855957031, 'learning_rate': 5.920000000000001e-08, 'epoch': 297.0}
  0%|          | 298/1500000 [13:26<1001:09:03,  2.40s/it]                                                            0%|          | 298/1500000 [13:26<1001:09:03,  2.40s/it]{'loss': 3.1039, 'grad_norm': 9.138073921203613, 'learning_rate': 5.94e-08, 'epoch': 298.0}
  0%|          | 299/1500000 [13:28<1011:06:54,  2.43s/it]                                                            0%|          | 299/1500000 [13:28<1011:06:54,  2.43s/it]{'loss': 3.0817, 'grad_norm': 9.563556671142578, 'learning_rate': 5.96e-08, 'epoch': 299.0}
  0%|          | 300/1500000 [13:31<1003:12:09,  2.41s/it]                                                            0%|          | 300/1500000 [13:31<1003:12:09,  2.41s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 3.0872, 'grad_norm': 9.675851821899414, 'learning_rate': 5.98e-08, 'epoch': 300.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.08it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.17s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.21s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.44s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.40s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.06s/it][A                                                          
                                             [A  0%|          | 300/1500000 [14:12<1003:12:09,  2.41s/it]
100%|██████████| 7/7 [00:08<00:00,  1.06s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-100] due to args.save_total_limit
{'eval_loss': 6.440810680389404, 'eval_wer': 1.1970878238936025, 'eval_cer': 1.551351086743685, 'eval_runtime': 14.7123, 'eval_samples_per_second': 66.815, 'eval_steps_per_second': 0.476, 'epoch': 300.0}
  0%|          | 301/1500000 [14:30<8086:38:37, 19.41s/it]                                                            0%|          | 301/1500000 [14:30<8086:38:37, 19.41s/it]{'loss': 3.0877, 'grad_norm': 9.1085205078125, 'learning_rate': 6.000000000000001e-08, 'epoch': 301.0}
  0%|          | 302/1500000 [14:32<5976:24:16, 14.35s/it]                                                            0%|          | 302/1500000 [14:32<5976:24:16, 14.35s/it]{'loss': 3.0858, 'grad_norm': 10.005499839782715, 'learning_rate': 6.02e-08, 'epoch': 302.0}
  0%|          | 303/1500000 [14:35<4482:04:31, 10.76s/it]                                                            0%|          | 303/1500000 [14:35<4482:04:31, 10.76s/it]{'loss': 3.0909, 'grad_norm': 9.126421928405762, 'learning_rate': 6.04e-08, 'epoch': 303.0}
  0%|          | 304/1500000 [14:37<3446:14:36,  8.27s/it]                                                            0%|          | 304/1500000 [14:37<3446:14:36,  8.27s/it]{'loss': 3.0963, 'grad_norm': 9.058963775634766, 'learning_rate': 6.06e-08, 'epoch': 304.0}
  0%|          | 305/1500000 [14:39<2723:50:10,  6.54s/it]                                                            0%|          | 305/1500000 [14:39<2723:50:10,  6.54s/it]{'loss': 3.0912, 'grad_norm': 9.293973922729492, 'learning_rate': 6.08e-08, 'epoch': 305.0}
  0%|          | 306/1500000 [14:42<2212:39:37,  5.31s/it]                                                            0%|          | 306/1500000 [14:42<2212:39:37,  5.31s/it]{'loss': 3.0861, 'grad_norm': 9.228354454040527, 'learning_rate': 6.099999999999999e-08, 'epoch': 306.0}
  0%|          | 307/1500000 [14:45<1887:33:41,  4.53s/it]                                                            0%|          | 307/1500000 [14:45<1887:33:41,  4.53s/it]{'loss': 3.082, 'grad_norm': 9.249914169311523, 'learning_rate': 6.12e-08, 'epoch': 307.0}
  0%|          | 308/1500000 [14:47<1665:05:36,  4.00s/it]                                                            0%|          | 308/1500000 [14:47<1665:05:36,  4.00s/it]{'loss': 3.0839, 'grad_norm': 9.106575965881348, 'learning_rate': 6.140000000000001e-08, 'epoch': 308.0}
  0%|          | 309/1500000 [14:50<1473:55:54,  3.54s/it]                                                            0%|          | 309/1500000 [14:50<1473:55:54,  3.54s/it]{'loss': 3.0863, 'grad_norm': 21.31316566467285, 'learning_rate': 6.16e-08, 'epoch': 309.0}
  0%|          | 310/1500000 [14:52<1328:19:04,  3.19s/it]                                                            0%|          | 310/1500000 [14:52<1328:19:04,  3.19s/it]{'loss': 3.0893, 'grad_norm': 9.109150886535645, 'learning_rate': 6.180000000000001e-08, 'epoch': 310.0}
  0%|          | 311/1500000 [14:55<1266:00:49,  3.04s/it]                                                            0%|          | 311/1500000 [14:55<1266:00:49,  3.04s/it]{'loss': 3.0816, 'grad_norm': 9.041505813598633, 'learning_rate': 6.2e-08, 'epoch': 311.0}
  0%|          | 312/1500000 [14:58<1224:21:53,  2.94s/it]                                                            0%|          | 312/1500000 [14:58<1224:21:53,  2.94s/it]{'loss': 3.083, 'grad_norm': 9.433721542358398, 'learning_rate': 6.22e-08, 'epoch': 312.0}
  0%|          | 313/1500000 [15:00<1192:27:09,  2.86s/it]                                                            0%|          | 313/1500000 [15:00<1192:27:09,  2.86s/it]{'loss': 3.0793, 'grad_norm': 9.800762176513672, 'learning_rate': 6.239999999999999e-08, 'epoch': 313.0}
  0%|          | 314/1500000 [15:03<1137:15:01,  2.73s/it]                                                            0%|          | 314/1500000 [15:03<1137:15:01,  2.73s/it]{'loss': 3.0854, 'grad_norm': 9.17836856842041, 'learning_rate': 6.26e-08, 'epoch': 314.0}
  0%|          | 315/1500000 [15:05<1099:55:47,  2.64s/it]                                                            0%|          | 315/1500000 [15:05<1099:55:47,  2.64s/it]{'loss': 3.0788, 'grad_norm': 9.862327575683594, 'learning_rate': 6.28e-08, 'epoch': 315.0}
  0%|          | 316/1500000 [15:08<1109:09:31,  2.66s/it]                                                            0%|          | 316/1500000 [15:08<1109:09:31,  2.66s/it]{'loss': 3.079, 'grad_norm': 9.239212036132812, 'learning_rate': 6.3e-08, 'epoch': 316.0}
  0%|          | 317/1500000 [15:10<1087:23:28,  2.61s/it]                                                            0%|          | 317/1500000 [15:10<1087:23:28,  2.61s/it]{'loss': 3.0695, 'grad_norm': 9.457365036010742, 'learning_rate': 6.320000000000001e-08, 'epoch': 317.0}
  0%|          | 318/1500000 [15:13<1076:00:39,  2.58s/it]                                                            0%|          | 318/1500000 [15:13<1076:00:39,  2.58s/it]{'loss': 3.0696, 'grad_norm': 9.50989818572998, 'learning_rate': 6.34e-08, 'epoch': 318.0}
  0%|          | 319/1500000 [15:15<1067:24:25,  2.56s/it]                                                            0%|          | 319/1500000 [15:15<1067:24:25,  2.56s/it]{'loss': 3.0775, 'grad_norm': 9.28524112701416, 'learning_rate': 6.36e-08, 'epoch': 319.0}
  0%|          | 320/1500000 [15:18<1062:47:13,  2.55s/it]                                                            0%|          | 320/1500000 [15:18<1062:47:13,  2.55s/it]{'loss': 3.0516, 'grad_norm': 9.554007530212402, 'learning_rate': 6.379999999999999e-08, 'epoch': 320.0}
  0%|          | 321/1500000 [15:21<1074:00:59,  2.58s/it]                                                            0%|          | 321/1500000 [15:21<1074:00:59,  2.58s/it]{'loss': 3.0745, 'grad_norm': 9.450907707214355, 'learning_rate': 6.4e-08, 'epoch': 321.0}
  0%|          | 322/1500000 [15:23<1057:03:40,  2.54s/it]                                                            0%|          | 322/1500000 [15:23<1057:03:40,  2.54s/it]{'loss': 3.0589, 'grad_norm': 9.49790096282959, 'learning_rate': 6.42e-08, 'epoch': 322.0}
  0%|          | 323/1500000 [15:25<1046:51:52,  2.51s/it]                                                            0%|          | 323/1500000 [15:25<1046:51:52,  2.51s/it]{'loss': 3.0631, 'grad_norm': 9.075737953186035, 'learning_rate': 6.44e-08, 'epoch': 323.0}
  0%|          | 324/1500000 [15:28<1034:11:19,  2.48s/it]                                                            0%|          | 324/1500000 [15:28<1034:11:19,  2.48s/it]{'loss': 3.0632, 'grad_norm': 9.457551956176758, 'learning_rate': 6.460000000000001e-08, 'epoch': 324.0}
  0%|          | 325/1500000 [15:30<1025:27:49,  2.46s/it]                                                            0%|          | 325/1500000 [15:30<1025:27:49,  2.46s/it]{'loss': 3.0598, 'grad_norm': 9.315293312072754, 'learning_rate': 6.48e-08, 'epoch': 325.0}
  0%|          | 326/1500000 [15:33<1019:27:05,  2.45s/it]                                                            0%|          | 326/1500000 [15:33<1019:27:05,  2.45s/it]{'loss': 3.0606, 'grad_norm': 9.484620094299316, 'learning_rate': 6.5e-08, 'epoch': 326.0}
  0%|          | 327/1500000 [15:35<1012:12:57,  2.43s/it]                                                            0%|          | 327/1500000 [15:35<1012:12:57,  2.43s/it]{'loss': 3.0715, 'grad_norm': 9.316662788391113, 'learning_rate': 6.52e-08, 'epoch': 327.0}
  0%|          | 328/1500000 [15:38<1016:22:50,  2.44s/it]                                                            0%|          | 328/1500000 [15:38<1016:22:50,  2.44s/it]{'loss': 3.0536, 'grad_norm': 9.296554565429688, 'learning_rate': 6.54e-08, 'epoch': 328.0}
  0%|          | 329/1500000 [15:40<1026:05:53,  2.46s/it]                                                            0%|          | 329/1500000 [15:40<1026:05:53,  2.46s/it]{'loss': 3.0617, 'grad_norm': 19.711408615112305, 'learning_rate': 6.56e-08, 'epoch': 329.0}
  0%|          | 330/1500000 [15:43<1025:36:48,  2.46s/it]                                                            0%|          | 330/1500000 [15:43<1025:36:48,  2.46s/it]{'loss': 3.054, 'grad_norm': 9.537361145019531, 'learning_rate': 6.58e-08, 'epoch': 330.0}
  0%|          | 331/1500000 [15:45<1050:43:55,  2.52s/it]                                                            0%|          | 331/1500000 [15:45<1050:43:55,  2.52s/it]{'loss': 3.0425, 'grad_norm': 9.372537612915039, 'learning_rate': 6.600000000000001e-08, 'epoch': 331.0}
  0%|          | 332/1500000 [15:48<1034:53:30,  2.48s/it]                                                            0%|          | 332/1500000 [15:48<1034:53:30,  2.48s/it]{'loss': 3.0443, 'grad_norm': 9.480900764465332, 'learning_rate': 6.62e-08, 'epoch': 332.0}
  0%|          | 333/1500000 [15:50<1029:26:42,  2.47s/it]                                                            0%|          | 333/1500000 [15:50<1029:26:42,  2.47s/it]{'loss': 3.0449, 'grad_norm': 9.413841247558594, 'learning_rate': 6.64e-08, 'epoch': 333.0}
  0%|          | 334/1500000 [15:52<1019:29:53,  2.45s/it]                                                            0%|          | 334/1500000 [15:52<1019:29:53,  2.45s/it]{'loss': 3.0628, 'grad_norm': 9.371822357177734, 'learning_rate': 6.66e-08, 'epoch': 334.0}
  0%|          | 335/1500000 [15:55<1012:43:16,  2.43s/it]                                                            0%|          | 335/1500000 [15:55<1012:43:16,  2.43s/it]{'loss': 3.0579, 'grad_norm': 9.452646255493164, 'learning_rate': 6.68e-08, 'epoch': 335.0}
  0%|          | 336/1500000 [15:57<1011:24:12,  2.43s/it]                                                            0%|          | 336/1500000 [15:57<1011:24:12,  2.43s/it]{'loss': 3.0456, 'grad_norm': 9.41593074798584, 'learning_rate': 6.7e-08, 'epoch': 336.0}
  0%|          | 337/1500000 [16:00<1010:54:35,  2.43s/it]                                                            0%|          | 337/1500000 [16:00<1010:54:35,  2.43s/it]{'loss': 3.04, 'grad_norm': 9.356925964355469, 'learning_rate': 6.719999999999999e-08, 'epoch': 337.0}
  0%|          | 338/1500000 [16:02<1012:37:30,  2.43s/it]                                                            0%|          | 338/1500000 [16:02<1012:37:30,  2.43s/it]{'loss': 3.0394, 'grad_norm': 18.93508529663086, 'learning_rate': 6.740000000000001e-08, 'epoch': 338.0}
  0%|          | 339/1500000 [16:05<1021:57:41,  2.45s/it]                                                            0%|          | 339/1500000 [16:05<1021:57:41,  2.45s/it]{'loss': 3.0468, 'grad_norm': 9.484248161315918, 'learning_rate': 6.76e-08, 'epoch': 339.0}
  0%|          | 340/1500000 [16:07<1022:47:26,  2.46s/it]                                                            0%|          | 340/1500000 [16:07<1022:47:26,  2.46s/it]{'loss': 3.0252, 'grad_norm': 9.519532203674316, 'learning_rate': 6.78e-08, 'epoch': 340.0}
  0%|          | 341/1500000 [16:10<1024:04:27,  2.46s/it]                                                            0%|          | 341/1500000 [16:10<1024:04:27,  2.46s/it]{'loss': 3.0422, 'grad_norm': 9.603129386901855, 'learning_rate': 6.8e-08, 'epoch': 341.0}
  0%|          | 342/1500000 [16:12<1024:28:17,  2.46s/it]                                                            0%|          | 342/1500000 [16:12<1024:28:17,  2.46s/it]{'loss': 3.0358, 'grad_norm': 9.690505027770996, 'learning_rate': 6.82e-08, 'epoch': 342.0}
  0%|          | 343/1500000 [16:14<1023:13:03,  2.46s/it]                                                            0%|          | 343/1500000 [16:14<1023:13:03,  2.46s/it]{'loss': 3.0428, 'grad_norm': 9.434508323669434, 'learning_rate': 6.84e-08, 'epoch': 343.0}
  0%|          | 344/1500000 [16:17<1030:28:29,  2.47s/it]                                                            0%|          | 344/1500000 [16:17<1030:28:29,  2.47s/it]{'loss': 3.0378, 'grad_norm': 9.651692390441895, 'learning_rate': 6.86e-08, 'epoch': 344.0}
  0%|          | 345/1500000 [16:19<1022:56:01,  2.46s/it]                                                            0%|          | 345/1500000 [16:19<1022:56:01,  2.46s/it]{'loss': 3.0479, 'grad_norm': 9.478530883789062, 'learning_rate': 6.880000000000001e-08, 'epoch': 345.0}
  0%|          | 346/1500000 [16:22<1039:49:59,  2.50s/it]                                                            0%|          | 346/1500000 [16:22<1039:49:59,  2.50s/it]{'loss': 3.0338, 'grad_norm': 9.541781425476074, 'learning_rate': 6.9e-08, 'epoch': 346.0}
  0%|          | 347/1500000 [16:24<1042:21:42,  2.50s/it]                                                            0%|          | 347/1500000 [16:24<1042:21:42,  2.50s/it]{'loss': 3.0347, 'grad_norm': 9.738832473754883, 'learning_rate': 6.92e-08, 'epoch': 347.0}
  0%|          | 348/1500000 [16:27<1027:30:55,  2.47s/it]                                                            0%|          | 348/1500000 [16:27<1027:30:55,  2.47s/it]{'loss': 3.0419, 'grad_norm': 9.519018173217773, 'learning_rate': 6.94e-08, 'epoch': 348.0}
  0%|          | 349/1500000 [16:30<1061:53:32,  2.55s/it]                                                            0%|          | 349/1500000 [16:30<1061:53:32,  2.55s/it]{'loss': 3.0394, 'grad_norm': 9.607177734375, 'learning_rate': 6.96e-08, 'epoch': 349.0}
  0%|          | 350/1500000 [16:32<1077:32:21,  2.59s/it]                                                            0%|          | 350/1500000 [16:32<1077:32:21,  2.59s/it]{'loss': 3.026, 'grad_norm': 9.535080909729004, 'learning_rate': 6.98e-08, 'epoch': 350.0}
  0%|          | 351/1500000 [16:35<1096:18:56,  2.63s/it]                                                            0%|          | 351/1500000 [16:35<1096:18:56,  2.63s/it]{'loss': 3.0257, 'grad_norm': 9.44837474822998, 'learning_rate': 7e-08, 'epoch': 351.0}
  0%|          | 352/1500000 [16:38<1106:41:56,  2.66s/it]                                                            0%|          | 352/1500000 [16:38<1106:41:56,  2.66s/it]{'loss': 3.0284, 'grad_norm': 9.633695602416992, 'learning_rate': 7.02e-08, 'epoch': 352.0}
  0%|          | 353/1500000 [16:40<1080:09:35,  2.59s/it]                                                            0%|          | 353/1500000 [16:40<1080:09:35,  2.59s/it]{'loss': 3.0256, 'grad_norm': 11.253901481628418, 'learning_rate': 7.04e-08, 'epoch': 353.0}
  0%|          | 354/1500000 [16:43<1073:52:51,  2.58s/it]                                                            0%|          | 354/1500000 [16:43<1073:52:51,  2.58s/it]{'loss': 3.0201, 'grad_norm': 10.35762882232666, 'learning_rate': 7.06e-08, 'epoch': 354.0}
  0%|          | 355/1500000 [16:45<1059:22:30,  2.54s/it]                                                            0%|          | 355/1500000 [16:45<1059:22:30,  2.54s/it]{'loss': 3.0283, 'grad_norm': 9.522764205932617, 'learning_rate': 7.080000000000001e-08, 'epoch': 355.0}
  0%|          | 356/1500000 [16:48<1047:34:21,  2.51s/it]                                                            0%|          | 356/1500000 [16:48<1047:34:21,  2.51s/it]{'loss': 3.0263, 'grad_norm': 9.97978401184082, 'learning_rate': 7.1e-08, 'epoch': 356.0}
  0%|          | 357/1500000 [16:50<1062:35:19,  2.55s/it]                                                            0%|          | 357/1500000 [16:50<1062:35:19,  2.55s/it]{'loss': 3.0103, 'grad_norm': 9.737427711486816, 'learning_rate': 7.12e-08, 'epoch': 357.0}
  0%|          | 358/1500000 [16:53<1093:23:29,  2.62s/it]                                                            0%|          | 358/1500000 [16:53<1093:23:29,  2.62s/it]{'loss': 3.0226, 'grad_norm': 9.807669639587402, 'learning_rate': 7.14e-08, 'epoch': 358.0}
  0%|          | 359/1500000 [16:56<1113:14:35,  2.67s/it]                                                            0%|          | 359/1500000 [16:56<1113:14:35,  2.67s/it]{'loss': 3.0214, 'grad_norm': 9.656403541564941, 'learning_rate': 7.16e-08, 'epoch': 359.0}
  0%|          | 360/1500000 [16:59<1124:20:17,  2.70s/it]                                                            0%|          | 360/1500000 [16:59<1124:20:17,  2.70s/it]{'loss': 3.0162, 'grad_norm': 9.625539779663086, 'learning_rate': 7.18e-08, 'epoch': 360.0}
  0%|          | 361/1500000 [17:01<1089:35:33,  2.62s/it]                                                            0%|          | 361/1500000 [17:01<1089:35:33,  2.62s/it]{'loss': 3.0004, 'grad_norm': 9.659299850463867, 'learning_rate': 7.2e-08, 'epoch': 361.0}
  0%|          | 362/1500000 [17:03<1063:33:32,  2.55s/it]                                                            0%|          | 362/1500000 [17:03<1063:33:32,  2.55s/it]{'loss': 3.0042, 'grad_norm': 9.859379768371582, 'learning_rate': 7.220000000000001e-08, 'epoch': 362.0}
  0%|          | 363/1500000 [17:06<1080:10:44,  2.59s/it]                                                            0%|          | 363/1500000 [17:06<1080:10:44,  2.59s/it]{'loss': 2.9969, 'grad_norm': 10.210478782653809, 'learning_rate': 7.24e-08, 'epoch': 363.0}
  0%|          | 364/1500000 [17:09<1053:36:07,  2.53s/it]                                                            0%|          | 364/1500000 [17:09<1053:36:07,  2.53s/it]{'loss': 2.9971, 'grad_norm': 9.806373596191406, 'learning_rate': 7.26e-08, 'epoch': 364.0}
  0%|          | 365/1500000 [17:11<1044:43:44,  2.51s/it]                                                            0%|          | 365/1500000 [17:11<1044:43:44,  2.51s/it]{'loss': 3.0029, 'grad_norm': 9.679604530334473, 'learning_rate': 7.28e-08, 'epoch': 365.0}
  0%|          | 366/1500000 [17:13<1046:41:02,  2.51s/it]                                                            0%|          | 366/1500000 [17:13<1046:41:02,  2.51s/it]{'loss': 3.0006, 'grad_norm': 9.807979583740234, 'learning_rate': 7.3e-08, 'epoch': 366.0}
  0%|          | 367/1500000 [17:16<1051:01:51,  2.52s/it]                                                            0%|          | 367/1500000 [17:16<1051:01:51,  2.52s/it]{'loss': 2.9927, 'grad_norm': 9.80107307434082, 'learning_rate': 7.32e-08, 'epoch': 367.0}
  0%|          | 368/1500000 [17:18<1030:10:14,  2.47s/it]                                                            0%|          | 368/1500000 [17:18<1030:10:14,  2.47s/it]{'loss': 2.9994, 'grad_norm': 9.89408016204834, 'learning_rate': 7.340000000000001e-08, 'epoch': 368.0}
  0%|          | 369/1500000 [17:21<1067:14:56,  2.56s/it]                                                            0%|          | 369/1500000 [17:21<1067:14:56,  2.56s/it]{'loss': 2.9913, 'grad_norm': 9.858809471130371, 'learning_rate': 7.360000000000001e-08, 'epoch': 369.0}
  0%|          | 370/1500000 [17:24<1049:13:35,  2.52s/it]                                                            0%|          | 370/1500000 [17:24<1049:13:35,  2.52s/it]{'loss': 2.9976, 'grad_norm': 9.80447769165039, 'learning_rate': 7.38e-08, 'epoch': 370.0}
  0%|          | 371/1500000 [17:26<1038:29:35,  2.49s/it]                                                            0%|          | 371/1500000 [17:26<1038:29:35,  2.49s/it]{'loss': 2.9874, 'grad_norm': 10.1004638671875, 'learning_rate': 7.4e-08, 'epoch': 371.0}
  0%|          | 372/1500000 [17:29<1051:10:30,  2.52s/it]                                                            0%|          | 372/1500000 [17:29<1051:10:30,  2.52s/it]{'loss': 2.9919, 'grad_norm': 9.744044303894043, 'learning_rate': 7.42e-08, 'epoch': 372.0}
  0%|          | 373/1500000 [17:31<1070:30:06,  2.57s/it]                                                            0%|          | 373/1500000 [17:31<1070:30:06,  2.57s/it]{'loss': 2.9932, 'grad_norm': 9.922066688537598, 'learning_rate': 7.44e-08, 'epoch': 373.0}
  0%|          | 374/1500000 [17:34<1052:56:39,  2.53s/it]                                                            0%|          | 374/1500000 [17:34<1052:56:39,  2.53s/it]{'loss': 2.9917, 'grad_norm': 10.04847240447998, 'learning_rate': 7.459999999999999e-08, 'epoch': 374.0}
  0%|          | 375/1500000 [17:36<1050:02:06,  2.52s/it]                                                            0%|          | 375/1500000 [17:36<1050:02:06,  2.52s/it]{'loss': 2.9786, 'grad_norm': 9.883096694946289, 'learning_rate': 7.480000000000001e-08, 'epoch': 375.0}
  0%|          | 376/1500000 [17:39<1044:41:29,  2.51s/it]                                                            0%|          | 376/1500000 [17:39<1044:41:29,  2.51s/it]{'loss': 2.9853, 'grad_norm': 9.937684059143066, 'learning_rate': 7.500000000000001e-08, 'epoch': 376.0}
  0%|          | 377/1500000 [17:41<1031:57:55,  2.48s/it]                                                            0%|          | 377/1500000 [17:41<1031:57:55,  2.48s/it]{'loss': 2.9716, 'grad_norm': 10.045894622802734, 'learning_rate': 7.52e-08, 'epoch': 377.0}
  0%|          | 378/1500000 [17:44<1029:42:38,  2.47s/it]                                                            0%|          | 378/1500000 [17:44<1029:42:38,  2.47s/it]{'loss': 2.9848, 'grad_norm': 10.0501070022583, 'learning_rate': 7.54e-08, 'epoch': 378.0}
  0%|          | 379/1500000 [17:46<1024:42:55,  2.46s/it]                                                            0%|          | 379/1500000 [17:46<1024:42:55,  2.46s/it]{'loss': 2.9867, 'grad_norm': 9.958124160766602, 'learning_rate': 7.56e-08, 'epoch': 379.0}
  0%|          | 380/1500000 [17:49<1067:25:23,  2.56s/it]                                                            0%|          | 380/1500000 [17:49<1067:25:23,  2.56s/it]{'loss': 2.988, 'grad_norm': 10.13177490234375, 'learning_rate': 7.58e-08, 'epoch': 380.0}
  0%|          | 381/1500000 [17:52<1097:10:03,  2.63s/it]                                                            0%|          | 381/1500000 [17:52<1097:10:03,  2.63s/it]{'loss': 2.9778, 'grad_norm': 10.068687438964844, 'learning_rate': 7.599999999999999e-08, 'epoch': 381.0}
  0%|          | 382/1500000 [17:54<1079:05:22,  2.59s/it]                                                            0%|          | 382/1500000 [17:54<1079:05:22,  2.59s/it]{'loss': 2.9701, 'grad_norm': 9.950433731079102, 'learning_rate': 7.620000000000001e-08, 'epoch': 382.0}
  0%|          | 383/1500000 [17:57<1069:51:45,  2.57s/it]                                                            0%|          | 383/1500000 [17:57<1069:51:45,  2.57s/it]{'loss': 2.9711, 'grad_norm': 9.95704174041748, 'learning_rate': 7.640000000000001e-08, 'epoch': 383.0}
  0%|          | 384/1500000 [17:59<1059:35:11,  2.54s/it]                                                            0%|          | 384/1500000 [17:59<1059:35:11,  2.54s/it]{'loss': 2.9674, 'grad_norm': 10.036155700683594, 'learning_rate': 7.66e-08, 'epoch': 384.0}
  0%|          | 385/1500000 [18:02<1047:48:16,  2.52s/it]                                                            0%|          | 385/1500000 [18:02<1047:48:16,  2.52s/it]{'loss': 2.9656, 'grad_norm': 9.978930473327637, 'learning_rate': 7.680000000000001e-08, 'epoch': 385.0}
  0%|          | 386/1500000 [18:04<1047:59:18,  2.52s/it]                                                            0%|          | 386/1500000 [18:04<1047:59:18,  2.52s/it]{'loss': 2.9614, 'grad_norm': 9.947368621826172, 'learning_rate': 7.7e-08, 'epoch': 386.0}
  0%|          | 387/1500000 [18:07<1042:02:19,  2.50s/it]                                                            0%|          | 387/1500000 [18:07<1042:02:19,  2.50s/it]{'loss': 2.955, 'grad_norm': 10.08601188659668, 'learning_rate': 7.72e-08, 'epoch': 387.0}
  0%|          | 388/1500000 [18:09<1033:43:31,  2.48s/it]                                                            0%|          | 388/1500000 [18:09<1033:43:31,  2.48s/it]{'loss': 2.9616, 'grad_norm': 10.118583679199219, 'learning_rate': 7.739999999999999e-08, 'epoch': 388.0}
  0%|          | 389/1500000 [18:11<1041:07:45,  2.50s/it]                                                            0%|          | 389/1500000 [18:12<1041:07:45,  2.50s/it]{'loss': 2.9478, 'grad_norm': 10.36526870727539, 'learning_rate': 7.760000000000001e-08, 'epoch': 389.0}
  0%|          | 390/1500000 [18:14<1039:22:28,  2.50s/it]                                                            0%|          | 390/1500000 [18:14<1039:22:28,  2.50s/it]{'loss': 2.9604, 'grad_norm': 10.12375545501709, 'learning_rate': 7.780000000000001e-08, 'epoch': 390.0}
  0%|          | 391/1500000 [18:17<1055:26:19,  2.53s/it]                                                            0%|          | 391/1500000 [18:17<1055:26:19,  2.53s/it]{'loss': 2.9598, 'grad_norm': 11.269096374511719, 'learning_rate': 7.8e-08, 'epoch': 391.0}
  0%|          | 392/1500000 [18:19<1056:18:14,  2.54s/it]                                                            0%|          | 392/1500000 [18:19<1056:18:14,  2.54s/it]{'loss': 2.9517, 'grad_norm': 10.000296592712402, 'learning_rate': 7.820000000000001e-08, 'epoch': 392.0}
  0%|          | 393/1500000 [18:22<1047:11:27,  2.51s/it]                                                            0%|          | 393/1500000 [18:22<1047:11:27,  2.51s/it]{'loss': 2.9507, 'grad_norm': 10.176694869995117, 'learning_rate': 7.84e-08, 'epoch': 393.0}
  0%|          | 394/1500000 [18:24<1035:44:10,  2.49s/it]                                                            0%|          | 394/1500000 [18:24<1035:44:10,  2.49s/it]{'loss': 2.965, 'grad_norm': 10.26168155670166, 'learning_rate': 7.86e-08, 'epoch': 394.0}
  0%|          | 395/1500000 [18:27<1046:56:45,  2.51s/it]                                                            0%|          | 395/1500000 [18:27<1046:56:45,  2.51s/it]{'loss': 2.9518, 'grad_norm': 10.196148872375488, 'learning_rate': 7.879999999999999e-08, 'epoch': 395.0}
  0%|          | 396/1500000 [18:29<1038:26:23,  2.49s/it]                                                            0%|          | 396/1500000 [18:29<1038:26:23,  2.49s/it]{'loss': 2.9523, 'grad_norm': 10.424365043640137, 'learning_rate': 7.9e-08, 'epoch': 396.0}
  0%|          | 397/1500000 [18:31<1030:15:02,  2.47s/it]                                                            0%|          | 397/1500000 [18:31<1030:15:02,  2.47s/it]{'loss': 2.9529, 'grad_norm': 12.172944068908691, 'learning_rate': 7.920000000000001e-08, 'epoch': 397.0}
  0%|          | 398/1500000 [18:34<1025:43:38,  2.46s/it]                                                            0%|          | 398/1500000 [18:34<1025:43:38,  2.46s/it]{'loss': 2.9462, 'grad_norm': 10.463887214660645, 'learning_rate': 7.94e-08, 'epoch': 398.0}
  0%|          | 399/1500000 [18:36<1036:23:39,  2.49s/it]                                                            0%|          | 399/1500000 [18:36<1036:23:39,  2.49s/it]{'loss': 2.9305, 'grad_norm': 10.231317520141602, 'learning_rate': 7.960000000000001e-08, 'epoch': 399.0}
  0%|          | 400/1500000 [18:39<1032:09:22,  2.48s/it]                                                            0%|          | 400/1500000 [18:39<1032:09:22,  2.48s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 2.9384, 'grad_norm': 10.335338592529297, 'learning_rate': 7.98e-08, 'epoch': 400.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.56it/s][A
 43%|████▎     | 3/7 [00:02<00:03,  1.13it/s][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.26s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.45s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.38s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.07s/it][A                                                          
                                             [A  0%|          | 400/1500000 [19:09<1032:09:22,  2.48s/it]
100%|██████████| 7/7 [00:08<00:00,  1.07s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-200] due to args.save_total_limit
{'eval_loss': 6.154604434967041, 'eval_wer': 1.5313001605136436, 'eval_cer': 1.3570589387115723, 'eval_runtime': 16.9661, 'eval_samples_per_second': 57.939, 'eval_steps_per_second': 0.413, 'epoch': 400.0}
  0%|          | 401/1500000 [19:22<6139:20:09, 14.74s/it]                                                            0%|          | 401/1500000 [19:22<6139:20:09, 14.74s/it]{'loss': 2.9225, 'grad_norm': 10.243326187133789, 'learning_rate': 8e-08, 'epoch': 401.0}
  0%|          | 402/1500000 [19:25<4636:31:07, 11.13s/it]                                                            0%|          | 402/1500000 [19:25<4636:31:07, 11.13s/it]{'loss': 2.9423, 'grad_norm': 12.855757713317871, 'learning_rate': 8.019999999999999e-08, 'epoch': 402.0}
  0%|          | 403/1500000 [19:28<3582:19:48,  8.60s/it]                                                            0%|          | 403/1500000 [19:28<3582:19:48,  8.60s/it]{'loss': 2.9299, 'grad_norm': 10.270698547363281, 'learning_rate': 8.04e-08, 'epoch': 403.0}
  0%|          | 404/1500000 [19:30<2851:38:24,  6.85s/it]                                                            0%|          | 404/1500000 [19:30<2851:38:24,  6.85s/it]{'loss': 2.9407, 'grad_norm': 10.405167579650879, 'learning_rate': 8.060000000000001e-08, 'epoch': 404.0}
  0%|          | 405/1500000 [19:33<2297:48:07,  5.52s/it]                                                            0%|          | 405/1500000 [19:33<2297:48:07,  5.52s/it]{'loss': 2.9327, 'grad_norm': 10.328475952148438, 'learning_rate': 8.08e-08, 'epoch': 405.0}
  0%|          | 406/1500000 [19:35<1914:15:37,  4.60s/it]                                                            0%|          | 406/1500000 [19:35<1914:15:37,  4.60s/it]{'loss': 2.9304, 'grad_norm': 10.417118072509766, 'learning_rate': 8.100000000000001e-08, 'epoch': 406.0}
  0%|          | 407/1500000 [19:38<1674:23:24,  4.02s/it]                                                            0%|          | 407/1500000 [19:38<1674:23:24,  4.02s/it]{'loss': 2.9296, 'grad_norm': 12.79296588897705, 'learning_rate': 8.12e-08, 'epoch': 407.0}
  0%|          | 408/1500000 [19:41<1515:48:43,  3.64s/it]                                                            0%|          | 408/1500000 [19:41<1515:48:43,  3.64s/it]{'loss': 2.9189, 'grad_norm': 10.491300582885742, 'learning_rate': 8.14e-08, 'epoch': 408.0}
  0%|          | 409/1500000 [19:43<1398:37:07,  3.36s/it]                                                            0%|          | 409/1500000 [19:43<1398:37:07,  3.36s/it]{'loss': 2.9233, 'grad_norm': 10.421578407287598, 'learning_rate': 8.16e-08, 'epoch': 409.0}
  0%|          | 410/1500000 [19:46<1281:27:32,  3.08s/it]                                                            0%|          | 410/1500000 [19:46<1281:27:32,  3.08s/it]{'loss': 2.9204, 'grad_norm': 10.498533248901367, 'learning_rate': 8.18e-08, 'epoch': 410.0}
  0%|          | 411/1500000 [19:48<1192:27:52,  2.86s/it]                                                            0%|          | 411/1500000 [19:48<1192:27:52,  2.86s/it]{'loss': 2.9079, 'grad_norm': 10.565262794494629, 'learning_rate': 8.2e-08, 'epoch': 411.0}
  0%|          | 412/1500000 [19:51<1143:12:36,  2.74s/it]                                                            0%|          | 412/1500000 [19:51<1143:12:36,  2.74s/it]{'loss': 2.9221, 'grad_norm': 10.486251831054688, 'learning_rate': 8.22e-08, 'epoch': 412.0}
  0%|          | 413/1500000 [19:53<1138:48:09,  2.73s/it]                                                            0%|          | 413/1500000 [19:53<1138:48:09,  2.73s/it]{'loss': 2.9137, 'grad_norm': 10.469022750854492, 'learning_rate': 8.240000000000001e-08, 'epoch': 413.0}
  0%|          | 414/1500000 [19:56<1101:25:24,  2.64s/it]                                                            0%|          | 414/1500000 [19:56<1101:25:24,  2.64s/it]{'loss': 2.9107, 'grad_norm': 10.856568336486816, 'learning_rate': 8.26e-08, 'epoch': 414.0}
  0%|          | 415/1500000 [19:58<1073:06:06,  2.58s/it]                                                            0%|          | 415/1500000 [19:58<1073:06:06,  2.58s/it]{'loss': 2.9136, 'grad_norm': inf, 'learning_rate': 8.26e-08, 'epoch': 415.0}
  0%|          | 416/1500000 [20:01<1087:44:29,  2.61s/it]                                                            0%|          | 416/1500000 [20:01<1087:44:29,  2.61s/it]{'loss': 2.9052, 'grad_norm': 10.638773918151855, 'learning_rate': 8.28e-08, 'epoch': 416.0}
  0%|          | 417/1500000 [20:04<1113:00:59,  2.67s/it]                                                            0%|          | 417/1500000 [20:04<1113:00:59,  2.67s/it]{'loss': 2.9111, 'grad_norm': 10.466660499572754, 'learning_rate': 8.3e-08, 'epoch': 417.0}
  0%|          | 418/1500000 [20:06<1085:52:00,  2.61s/it]                                                            0%|          | 418/1500000 [20:06<1085:52:00,  2.61s/it]{'loss': 2.8944, 'grad_norm': 10.593598365783691, 'learning_rate': 8.32e-08, 'epoch': 418.0}
  0%|          | 419/1500000 [20:09<1067:23:45,  2.56s/it]                                                            0%|          | 419/1500000 [20:09<1067:23:45,  2.56s/it]{'loss': 2.8946, 'grad_norm': 10.753944396972656, 'learning_rate': 8.34e-08, 'epoch': 419.0}
  0%|          | 420/1500000 [20:11<1055:13:38,  2.53s/it]                                                            0%|          | 420/1500000 [20:11<1055:13:38,  2.53s/it]{'loss': 2.8984, 'grad_norm': 10.697196960449219, 'learning_rate': 8.36e-08, 'epoch': 420.0}
  0%|          | 421/1500000 [20:14<1040:21:57,  2.50s/it]                                                            0%|          | 421/1500000 [20:14<1040:21:57,  2.50s/it]{'loss': 2.9057, 'grad_norm': 10.61422061920166, 'learning_rate': 8.380000000000001e-08, 'epoch': 421.0}
  0%|          | 422/1500000 [20:16<1031:01:28,  2.48s/it]                                                            0%|          | 422/1500000 [20:16<1031:01:28,  2.48s/it]{'loss': 2.8872, 'grad_norm': 10.733149528503418, 'learning_rate': 8.4e-08, 'epoch': 422.0}
  0%|          | 423/1500000 [20:19<1059:04:18,  2.54s/it]                                                            0%|          | 423/1500000 [20:19<1059:04:18,  2.54s/it]{'loss': 2.8946, 'grad_norm': 10.513837814331055, 'learning_rate': 8.42e-08, 'epoch': 423.0}
  0%|          | 424/1500000 [20:21<1060:27:13,  2.55s/it]                                                            0%|          | 424/1500000 [20:21<1060:27:13,  2.55s/it]{'loss': 2.8898, 'grad_norm': 10.818634033203125, 'learning_rate': 8.44e-08, 'epoch': 424.0}
  0%|          | 425/1500000 [20:24<1056:44:34,  2.54s/it]                                                            0%|          | 425/1500000 [20:24<1056:44:34,  2.54s/it]{'loss': 2.8915, 'grad_norm': 10.59921932220459, 'learning_rate': 8.46e-08, 'epoch': 425.0}
  0%|          | 426/1500000 [20:26<1048:05:26,  2.52s/it]                                                            0%|          | 426/1500000 [20:26<1048:05:26,  2.52s/it]{'loss': 2.8959, 'grad_norm': 10.781333923339844, 'learning_rate': 8.48e-08, 'epoch': 426.0}
  0%|          | 427/1500000 [20:29<1072:50:15,  2.58s/it]                                                            0%|          | 427/1500000 [20:29<1072:50:15,  2.58s/it]{'loss': 2.8955, 'grad_norm': 11.056563377380371, 'learning_rate': 8.500000000000001e-08, 'epoch': 427.0}
  0%|          | 428/1500000 [20:31<1051:21:47,  2.52s/it]                                                            0%|          | 428/1500000 [20:31<1051:21:47,  2.52s/it]{'loss': 2.8704, 'grad_norm': 10.963210105895996, 'learning_rate': 8.520000000000001e-08, 'epoch': 428.0}
  0%|          | 429/1500000 [20:34<1055:59:41,  2.54s/it]                                                            0%|          | 429/1500000 [20:34<1055:59:41,  2.54s/it]{'loss': 2.8774, 'grad_norm': 10.797355651855469, 'learning_rate': 8.54e-08, 'epoch': 429.0}
  0%|          | 430/1500000 [20:36<1047:50:21,  2.52s/it]                                                            0%|          | 430/1500000 [20:36<1047:50:21,  2.52s/it]{'loss': 2.8632, 'grad_norm': 11.013214111328125, 'learning_rate': 8.56e-08, 'epoch': 430.0}
  0%|          | 431/1500000 [20:39<1045:59:10,  2.51s/it]                                                            0%|          | 431/1500000 [20:39<1045:59:10,  2.51s/it]{'loss': 2.879, 'grad_norm': 10.818058013916016, 'learning_rate': 8.58e-08, 'epoch': 431.0}
  0%|          | 432/1500000 [20:42<1071:52:31,  2.57s/it]                                                            0%|          | 432/1500000 [20:42<1071:52:31,  2.57s/it]{'loss': 2.863, 'grad_norm': 11.493547439575195, 'learning_rate': 8.6e-08, 'epoch': 432.0}
  0%|          | 433/1500000 [20:44<1064:36:20,  2.56s/it]                                                            0%|          | 433/1500000 [20:44<1064:36:20,  2.56s/it]{'loss': 2.8648, 'grad_norm': 11.02921199798584, 'learning_rate': 8.62e-08, 'epoch': 433.0}
  0%|          | 434/1500000 [20:47<1067:38:18,  2.56s/it]                                                            0%|          | 434/1500000 [20:47<1067:38:18,  2.56s/it]{'loss': 2.8521, 'grad_norm': 11.286993026733398, 'learning_rate': 8.64e-08, 'epoch': 434.0}
  0%|          | 435/1500000 [20:49<1069:35:51,  2.57s/it]                                                            0%|          | 435/1500000 [20:49<1069:35:51,  2.57s/it]{'loss': 2.8664, 'grad_norm': 10.915390968322754, 'learning_rate': 8.660000000000001e-08, 'epoch': 435.0}
  0%|          | 436/1500000 [20:52<1053:53:09,  2.53s/it]                                                            0%|          | 436/1500000 [20:52<1053:53:09,  2.53s/it]{'loss': 2.8624, 'grad_norm': 11.00585651397705, 'learning_rate': 8.68e-08, 'epoch': 436.0}
  0%|          | 437/1500000 [20:54<1046:40:08,  2.51s/it]                                                            0%|          | 437/1500000 [20:54<1046:40:08,  2.51s/it]{'loss': 2.8589, 'grad_norm': 10.824642181396484, 'learning_rate': 8.7e-08, 'epoch': 437.0}
  0%|          | 438/1500000 [20:57<1040:31:42,  2.50s/it]                                                            0%|          | 438/1500000 [20:57<1040:31:42,  2.50s/it]{'loss': 2.8593, 'grad_norm': 11.30168342590332, 'learning_rate': 8.72e-08, 'epoch': 438.0}
  0%|          | 439/1500000 [20:59<1067:04:59,  2.56s/it]                                                            0%|          | 439/1500000 [20:59<1067:04:59,  2.56s/it]{'loss': 2.8588, 'grad_norm': 11.067914962768555, 'learning_rate': 8.74e-08, 'epoch': 439.0}
  0%|          | 440/1500000 [21:02<1046:09:20,  2.51s/it]                                                            0%|          | 440/1500000 [21:02<1046:09:20,  2.51s/it]{'loss': 2.8563, 'grad_norm': 11.037762641906738, 'learning_rate': 8.76e-08, 'epoch': 440.0}
  0%|          | 441/1500000 [21:04<1070:14:55,  2.57s/it]                                                            0%|          | 441/1500000 [21:04<1070:14:55,  2.57s/it]{'loss': 2.8524, 'grad_norm': 11.141039848327637, 'learning_rate': 8.78e-08, 'epoch': 441.0}
  0%|          | 442/1500000 [21:07<1047:28:22,  2.51s/it]                                                            0%|          | 442/1500000 [21:07<1047:28:22,  2.51s/it]{'loss': 2.8415, 'grad_norm': 11.13740348815918, 'learning_rate': 8.800000000000001e-08, 'epoch': 442.0}
  0%|          | 443/1500000 [21:09<1041:26:03,  2.50s/it]                                                            0%|          | 443/1500000 [21:09<1041:26:03,  2.50s/it]{'loss': 2.8572, 'grad_norm': 10.931684494018555, 'learning_rate': 8.82e-08, 'epoch': 443.0}
  0%|          | 444/1500000 [21:12<1027:56:03,  2.47s/it]                                                            0%|          | 444/1500000 [21:12<1027:56:03,  2.47s/it]{'loss': 2.8397, 'grad_norm': 11.027405738830566, 'learning_rate': 8.840000000000001e-08, 'epoch': 444.0}
  0%|          | 445/1500000 [21:14<1030:34:52,  2.47s/it]                                                            0%|          | 445/1500000 [21:14<1030:34:52,  2.47s/it]{'loss': 2.8532, 'grad_norm': 11.458629608154297, 'learning_rate': 8.86e-08, 'epoch': 445.0}
  0%|          | 446/1500000 [21:17<1037:08:58,  2.49s/it]                                                            0%|          | 446/1500000 [21:17<1037:08:58,  2.49s/it]{'loss': 2.835, 'grad_norm': 11.24700927734375, 'learning_rate': 8.88e-08, 'epoch': 446.0}
  0%|          | 447/1500000 [21:19<1036:16:46,  2.49s/it]                                                            0%|          | 447/1500000 [21:19<1036:16:46,  2.49s/it]{'loss': 2.8321, 'grad_norm': 11.262598037719727, 'learning_rate': 8.9e-08, 'epoch': 447.0}
  0%|          | 448/1500000 [21:22<1026:44:12,  2.46s/it]                                                            0%|          | 448/1500000 [21:22<1026:44:12,  2.46s/it]{'loss': 2.8291, 'grad_norm': 11.112068176269531, 'learning_rate': 8.92e-08, 'epoch': 448.0}
  0%|          | 449/1500000 [21:24<1021:18:30,  2.45s/it]                                                            0%|          | 449/1500000 [21:24<1021:18:30,  2.45s/it]{'loss': 2.8366, 'grad_norm': 14.302109718322754, 'learning_rate': 8.94e-08, 'epoch': 449.0}
  0%|          | 450/1500000 [21:27<1055:19:09,  2.53s/it]                                                            0%|          | 450/1500000 [21:27<1055:19:09,  2.53s/it]{'loss': 2.818, 'grad_norm': 11.087661743164062, 'learning_rate': 8.96e-08, 'epoch': 450.0}
  0%|          | 451/1500000 [21:29<1075:31:13,  2.58s/it]                                                            0%|          | 451/1500000 [21:29<1075:31:13,  2.58s/it]{'loss': 2.8293, 'grad_norm': 11.215343475341797, 'learning_rate': 8.980000000000001e-08, 'epoch': 451.0}
  0%|          | 452/1500000 [21:32<1062:10:01,  2.55s/it]                                                            0%|          | 452/1500000 [21:32<1062:10:01,  2.55s/it]{'loss': 2.8157, 'grad_norm': 11.323033332824707, 'learning_rate': 9e-08, 'epoch': 452.0}
  0%|          | 453/1500000 [21:35<1077:24:53,  2.59s/it]                                                            0%|          | 453/1500000 [21:35<1077:24:53,  2.59s/it]{'loss': 2.8276, 'grad_norm': 11.191221237182617, 'learning_rate': 9.02e-08, 'epoch': 453.0}
  0%|          | 454/1500000 [21:37<1047:06:10,  2.51s/it]                                                            0%|          | 454/1500000 [21:37<1047:06:10,  2.51s/it]{'loss': 2.8272, 'grad_norm': 11.34279727935791, 'learning_rate': 9.04e-08, 'epoch': 454.0}
  0%|          | 455/1500000 [21:39<1030:57:17,  2.48s/it]                                                            0%|          | 455/1500000 [21:39<1030:57:17,  2.48s/it]{'loss': 2.8204, 'grad_norm': 11.92239761352539, 'learning_rate': 9.06e-08, 'epoch': 455.0}
  0%|          | 456/1500000 [21:42<1026:58:09,  2.47s/it]                                                            0%|          | 456/1500000 [21:42<1026:58:09,  2.47s/it]{'loss': 2.8146, 'grad_norm': 11.537053108215332, 'learning_rate': 9.08e-08, 'epoch': 456.0}
  0%|          | 457/1500000 [21:44<1016:48:18,  2.44s/it]                                                            0%|          | 457/1500000 [21:44<1016:48:18,  2.44s/it]{'loss': 2.8041, 'grad_norm': 12.347588539123535, 'learning_rate': 9.1e-08, 'epoch': 457.0}
  0%|          | 458/1500000 [21:47<1048:29:06,  2.52s/it]                                                            0%|          | 458/1500000 [21:47<1048:29:06,  2.52s/it]{'loss': 2.8052, 'grad_norm': 13.056426048278809, 'learning_rate': 9.120000000000001e-08, 'epoch': 458.0}
  0%|          | 459/1500000 [21:49<1033:09:54,  2.48s/it]                                                            0%|          | 459/1500000 [21:49<1033:09:54,  2.48s/it]{'loss': 2.8051, 'grad_norm': 11.496535301208496, 'learning_rate': 9.14e-08, 'epoch': 459.0}
  0%|          | 460/1500000 [21:52<1017:47:09,  2.44s/it]                                                            0%|          | 460/1500000 [21:52<1017:47:09,  2.44s/it]{'loss': 2.8065, 'grad_norm': 11.41965103149414, 'learning_rate': 9.16e-08, 'epoch': 460.0}
  0%|          | 461/1500000 [21:54<1014:09:23,  2.43s/it]                                                            0%|          | 461/1500000 [21:54<1014:09:23,  2.43s/it]{'loss': 2.7919, 'grad_norm': 11.53232192993164, 'learning_rate': 9.18e-08, 'epoch': 461.0}
  0%|          | 462/1500000 [21:56<1017:26:16,  2.44s/it]                                                            0%|          | 462/1500000 [21:56<1017:26:16,  2.44s/it]{'loss': 2.7884, 'grad_norm': 11.49986457824707, 'learning_rate': 9.2e-08, 'epoch': 462.0}
  0%|          | 463/1500000 [21:59<1011:25:33,  2.43s/it]                                                            0%|          | 463/1500000 [21:59<1011:25:33,  2.43s/it]{'loss': 2.7849, 'grad_norm': 11.72327995300293, 'learning_rate': 9.22e-08, 'epoch': 463.0}
  0%|          | 464/1500000 [22:01<1008:33:24,  2.42s/it]                                                            0%|          | 464/1500000 [22:01<1008:33:24,  2.42s/it]{'loss': 2.8015, 'grad_norm': 11.373258590698242, 'learning_rate': 9.24e-08, 'epoch': 464.0}
  0%|          | 465/1500000 [22:04<1005:54:37,  2.41s/it]                                                            0%|          | 465/1500000 [22:04<1005:54:37,  2.41s/it]{'loss': 2.797, 'grad_norm': 11.538291931152344, 'learning_rate': 9.260000000000001e-08, 'epoch': 465.0}
  0%|          | 466/1500000 [22:06<1004:26:58,  2.41s/it]                                                            0%|          | 466/1500000 [22:06<1004:26:58,  2.41s/it]{'loss': 2.7889, 'grad_norm': 11.623849868774414, 'learning_rate': 9.28e-08, 'epoch': 466.0}
  0%|          | 467/1500000 [22:09<1043:52:18,  2.51s/it]                                                            0%|          | 467/1500000 [22:09<1043:52:18,  2.51s/it]{'loss': 2.7856, 'grad_norm': 11.688427925109863, 'learning_rate': 9.3e-08, 'epoch': 467.0}
  0%|          | 468/1500000 [22:11<1037:12:34,  2.49s/it]                                                            0%|          | 468/1500000 [22:11<1037:12:34,  2.49s/it]{'loss': 2.775, 'grad_norm': 11.688858032226562, 'learning_rate': 9.320000000000001e-08, 'epoch': 468.0}
  0%|          | 469/1500000 [22:14<1039:54:40,  2.50s/it]                                                            0%|          | 469/1500000 [22:14<1039:54:40,  2.50s/it]{'loss': 2.7781, 'grad_norm': 28.59229850769043, 'learning_rate': 9.34e-08, 'epoch': 469.0}
  0%|          | 470/1500000 [22:16<1026:54:52,  2.47s/it]                                                            0%|          | 470/1500000 [22:16<1026:54:52,  2.47s/it]{'loss': 2.7775, 'grad_norm': 11.774402618408203, 'learning_rate': 9.36e-08, 'epoch': 470.0}
  0%|          | 471/1500000 [22:19<1019:03:59,  2.45s/it]                                                            0%|          | 471/1500000 [22:19<1019:03:59,  2.45s/it]{'loss': 2.7807, 'grad_norm': 11.70593547821045, 'learning_rate': 9.379999999999999e-08, 'epoch': 471.0}
  0%|          | 472/1500000 [22:21<1013:19:55,  2.43s/it]                                                            0%|          | 472/1500000 [22:21<1013:19:55,  2.43s/it]{'loss': 2.7693, 'grad_norm': 11.608380317687988, 'learning_rate': 9.400000000000001e-08, 'epoch': 472.0}
  0%|          | 473/1500000 [22:23<1010:03:05,  2.42s/it]                                                            0%|          | 473/1500000 [22:23<1010:03:05,  2.42s/it]{'loss': 2.7663, 'grad_norm': 12.120619773864746, 'learning_rate': 9.42e-08, 'epoch': 473.0}
  0%|          | 474/1500000 [22:26<1010:37:44,  2.43s/it]                                                            0%|          | 474/1500000 [22:26<1010:37:44,  2.43s/it]{'loss': 2.7769, 'grad_norm': 11.719833374023438, 'learning_rate': 9.44e-08, 'epoch': 474.0}
  0%|          | 475/1500000 [22:28<1020:49:44,  2.45s/it]                                                            0%|          | 475/1500000 [22:28<1020:49:44,  2.45s/it]{'loss': 2.7615, 'grad_norm': 11.801180839538574, 'learning_rate': 9.460000000000001e-08, 'epoch': 475.0}
  0%|          | 476/1500000 [22:31<1024:17:13,  2.46s/it]                                                            0%|          | 476/1500000 [22:31<1024:17:13,  2.46s/it]{'loss': 2.7624, 'grad_norm': 11.784324645996094, 'learning_rate': 9.48e-08, 'epoch': 476.0}
  0%|          | 477/1500000 [22:33<1017:13:35,  2.44s/it]                                                            0%|          | 477/1500000 [22:33<1017:13:35,  2.44s/it]{'loss': 2.7659, 'grad_norm': 11.932530403137207, 'learning_rate': 9.5e-08, 'epoch': 477.0}
  0%|          | 478/1500000 [22:36<1048:58:54,  2.52s/it]                                                            0%|          | 478/1500000 [22:36<1048:58:54,  2.52s/it]{'loss': 2.7671, 'grad_norm': 11.952417373657227, 'learning_rate': 9.519999999999999e-08, 'epoch': 478.0}
  0%|          | 479/1500000 [22:39<1066:09:08,  2.56s/it]                                                            0%|          | 479/1500000 [22:39<1066:09:08,  2.56s/it]{'loss': 2.7407, 'grad_norm': 11.768077850341797, 'learning_rate': 9.540000000000001e-08, 'epoch': 479.0}
  0%|          | 480/1500000 [22:41<1061:04:14,  2.55s/it]                                                            0%|          | 480/1500000 [22:41<1061:04:14,  2.55s/it]{'loss': 2.7575, 'grad_norm': 11.804193496704102, 'learning_rate': 9.56e-08, 'epoch': 480.0}
  0%|          | 481/1500000 [22:43<1041:49:37,  2.50s/it]                                                            0%|          | 481/1500000 [22:43<1041:49:37,  2.50s/it]{'loss': 2.7562, 'grad_norm': 11.900182723999023, 'learning_rate': 9.58e-08, 'epoch': 481.0}
  0%|          | 482/1500000 [22:46<1023:46:56,  2.46s/it]                                                            0%|          | 482/1500000 [22:46<1023:46:56,  2.46s/it]{'loss': 2.7389, 'grad_norm': 11.968234062194824, 'learning_rate': 9.600000000000001e-08, 'epoch': 482.0}
  0%|          | 483/1500000 [22:48<1013:35:29,  2.43s/it]                                                            0%|          | 483/1500000 [22:48<1013:35:29,  2.43s/it]{'loss': 2.7565, 'grad_norm': 11.73422908782959, 'learning_rate': 9.62e-08, 'epoch': 483.0}
  0%|          | 484/1500000 [22:51<1010:44:58,  2.43s/it]                                                            0%|          | 484/1500000 [22:51<1010:44:58,  2.43s/it]{'loss': 2.7364, 'grad_norm': 11.842602729797363, 'learning_rate': 9.64e-08, 'epoch': 484.0}
  0%|          | 485/1500000 [22:53<1012:28:57,  2.43s/it]                                                            0%|          | 485/1500000 [22:53<1012:28:57,  2.43s/it]{'loss': 2.7439, 'grad_norm': 11.720949172973633, 'learning_rate': 9.66e-08, 'epoch': 485.0}
  0%|          | 486/1500000 [22:55<1010:25:44,  2.43s/it]                                                            0%|          | 486/1500000 [22:55<1010:25:44,  2.43s/it]{'loss': 2.7269, 'grad_norm': 11.901106834411621, 'learning_rate': 9.68e-08, 'epoch': 486.0}
  0%|          | 487/1500000 [22:58<1010:55:47,  2.43s/it]                                                            0%|          | 487/1500000 [22:58<1010:55:47,  2.43s/it]{'loss': 2.738, 'grad_norm': 12.120963096618652, 'learning_rate': 9.7e-08, 'epoch': 487.0}
  0%|          | 488/1500000 [23:00<1013:24:42,  2.43s/it]                                                            0%|          | 488/1500000 [23:00<1013:24:42,  2.43s/it]{'loss': 2.7258, 'grad_norm': 11.952871322631836, 'learning_rate': 9.72e-08, 'epoch': 488.0}
  0%|          | 489/1500000 [23:03<1004:47:57,  2.41s/it]                                                            0%|          | 489/1500000 [23:03<1004:47:57,  2.41s/it]{'loss': 2.7187, 'grad_norm': 11.85124683380127, 'learning_rate': 9.740000000000001e-08, 'epoch': 489.0}
  0%|          | 490/1500000 [23:05<1038:35:10,  2.49s/it]                                                            0%|          | 490/1500000 [23:05<1038:35:10,  2.49s/it]{'loss': 2.7258, 'grad_norm': 12.548460960388184, 'learning_rate': 9.76e-08, 'epoch': 490.0}
  0%|          | 491/1500000 [23:08<1065:43:05,  2.56s/it]                                                            0%|          | 491/1500000 [23:08<1065:43:05,  2.56s/it]{'loss': 2.7346, 'grad_norm': 12.17707347869873, 'learning_rate': 9.78e-08, 'epoch': 491.0}
  0%|          | 492/1500000 [23:11<1054:38:35,  2.53s/it]                                                            0%|          | 492/1500000 [23:11<1054:38:35,  2.53s/it]{'loss': 2.714, 'grad_norm': 12.401273727416992, 'learning_rate': 9.8e-08, 'epoch': 492.0}
  0%|          | 493/1500000 [23:13<1036:45:58,  2.49s/it]                                                            0%|          | 493/1500000 [23:13<1036:45:58,  2.49s/it]{'loss': 2.7161, 'grad_norm': 11.991809844970703, 'learning_rate': 9.82e-08, 'epoch': 493.0}
  0%|          | 494/1500000 [23:16<1050:33:38,  2.52s/it]                                                            0%|          | 494/1500000 [23:16<1050:33:38,  2.52s/it]{'loss': 2.7156, 'grad_norm': 12.603606224060059, 'learning_rate': 9.84e-08, 'epoch': 494.0}
  0%|          | 495/1500000 [23:18<1045:45:16,  2.51s/it]                                                            0%|          | 495/1500000 [23:18<1045:45:16,  2.51s/it]{'loss': 2.7134, 'grad_norm': 11.86927318572998, 'learning_rate': 9.86e-08, 'epoch': 495.0}
  0%|          | 496/1500000 [23:21<1068:07:06,  2.56s/it]                                                            0%|          | 496/1500000 [23:21<1068:07:06,  2.56s/it]{'loss': 2.7084, 'grad_norm': 11.97488784790039, 'learning_rate': 9.880000000000001e-08, 'epoch': 496.0}
  0%|          | 497/1500000 [23:23<1080:19:20,  2.59s/it]                                                            0%|          | 497/1500000 [23:23<1080:19:20,  2.59s/it]{'loss': 2.7067, 'grad_norm': 12.066449165344238, 'learning_rate': 9.9e-08, 'epoch': 497.0}
  0%|          | 498/1500000 [23:26<1091:51:25,  2.62s/it]                                                            0%|          | 498/1500000 [23:26<1091:51:25,  2.62s/it]{'loss': 2.6949, 'grad_norm': 12.244779586791992, 'learning_rate': 9.92e-08, 'epoch': 498.0}
  0%|          | 499/1500000 [23:28<1066:55:26,  2.56s/it]                                                            0%|          | 499/1500000 [23:28<1066:55:26,  2.56s/it]{'loss': 2.7003, 'grad_norm': 11.934524536132812, 'learning_rate': 9.94e-08, 'epoch': 499.0}
  0%|          | 500/1500000 [23:31<1046:43:52,  2.51s/it]                                                            0%|          | 500/1500000 [23:31<1046:43:52,  2.51s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 2.7071, 'grad_norm': 12.110991477966309, 'learning_rate': 9.96e-08, 'epoch': 500.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.06it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.10s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.14s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.32s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.48s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.11s/it][A                                                          
                                             [A  0%|          | 500/1500000 [24:01<1046:43:52,  2.51s/it]
100%|██████████| 7/7 [00:08<00:00,  1.11s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-300] due to args.save_total_limit
{'eval_loss': 5.666406154632568, 'eval_wer': 1.4447374455400137, 'eval_cer': 0.9348443313099667, 'eval_runtime': 17.5315, 'eval_samples_per_second': 56.071, 'eval_steps_per_second': 0.399, 'epoch': 500.0}
  0%|          | 501/1500000 [24:19<6772:16:14, 16.26s/it]                                                            0%|          | 501/1500000 [24:19<6772:16:14, 16.26s/it]{'loss': 2.6958, 'grad_norm': 12.145750999450684, 'learning_rate': 9.98e-08, 'epoch': 501.0}
  0%|          | 502/1500000 [24:22<5046:06:12, 12.11s/it]                                                            0%|          | 502/1500000 [24:22<5046:06:12, 12.11s/it]{'loss': 2.6921, 'grad_norm': 11.91031551361084, 'learning_rate': 1.0000000000000001e-07, 'epoch': 502.0}
  0%|          | 503/1500000 [24:24<3854:25:32,  9.25s/it]                                                            0%|          | 503/1500000 [24:24<3854:25:32,  9.25s/it]{'loss': 2.6977, 'grad_norm': 13.000243186950684, 'learning_rate': 1.0020000000000001e-07, 'epoch': 503.0}
  0%|          | 504/1500000 [24:27<3000:03:24,  7.20s/it]                                                            0%|          | 504/1500000 [24:27<3000:03:24,  7.20s/it]{'loss': 2.6745, 'grad_norm': 12.197468757629395, 'learning_rate': 1.004e-07, 'epoch': 504.0}
  0%|          | 505/1500000 [24:29<2445:41:10,  5.87s/it]                                                            0%|          | 505/1500000 [24:29<2445:41:10,  5.87s/it]{'loss': 2.6786, 'grad_norm': 12.60058307647705, 'learning_rate': 1.006e-07, 'epoch': 505.0}
  0%|          | 506/1500000 [24:32<2057:14:06,  4.94s/it]                                                            0%|          | 506/1500000 [24:32<2057:14:06,  4.94s/it]{'loss': 2.6747, 'grad_norm': 12.017674446105957, 'learning_rate': 1.008e-07, 'epoch': 506.0}
  0%|          | 507/1500000 [24:35<1744:35:09,  4.19s/it]                                                            0%|          | 507/1500000 [24:35<1744:35:09,  4.19s/it]{'loss': 2.6885, 'grad_norm': 11.970181465148926, 'learning_rate': 1.01e-07, 'epoch': 507.0}
  0%|          | 508/1500000 [24:37<1572:06:29,  3.77s/it]                                                            0%|          | 508/1500000 [24:37<1572:06:29,  3.77s/it]{'loss': 2.6716, 'grad_norm': 12.133176803588867, 'learning_rate': 1.0119999999999999e-07, 'epoch': 508.0}
  0%|          | 509/1500000 [24:40<1437:20:03,  3.45s/it]                                                            0%|          | 509/1500000 [24:40<1437:20:03,  3.45s/it]{'loss': 2.6733, 'grad_norm': 12.354731559753418, 'learning_rate': 1.0140000000000001e-07, 'epoch': 509.0}
  0%|          | 510/1500000 [24:43<1308:21:58,  3.14s/it]                                                            0%|          | 510/1500000 [24:43<1308:21:58,  3.14s/it]{'loss': 2.677, 'grad_norm': 12.08836841583252, 'learning_rate': 1.0160000000000001e-07, 'epoch': 510.0}
  0%|          | 511/1500000 [24:45<1215:43:02,  2.92s/it]                                                            0%|          | 511/1500000 [24:45<1215:43:02,  2.92s/it]{'loss': 2.6807, 'grad_norm': 12.18498420715332, 'learning_rate': 1.018e-07, 'epoch': 511.0}
  0%|          | 512/1500000 [24:47<1154:07:10,  2.77s/it]                                                            0%|          | 512/1500000 [24:47<1154:07:10,  2.77s/it]{'loss': 2.6673, 'grad_norm': 12.344615936279297, 'learning_rate': 1.02e-07, 'epoch': 512.0}
  0%|          | 513/1500000 [24:50<1112:42:44,  2.67s/it]                                                            0%|          | 513/1500000 [24:50<1112:42:44,  2.67s/it]{'loss': 2.6572, 'grad_norm': 12.103384971618652, 'learning_rate': 1.022e-07, 'epoch': 513.0}
  0%|          | 514/1500000 [24:52<1093:47:40,  2.63s/it]                                                            0%|          | 514/1500000 [24:52<1093:47:40,  2.63s/it]{'loss': 2.6665, 'grad_norm': 12.298835754394531, 'learning_rate': 1.024e-07, 'epoch': 514.0}
  0%|          | 515/1500000 [24:55<1077:37:37,  2.59s/it]                                                            0%|          | 515/1500000 [24:55<1077:37:37,  2.59s/it]{'loss': 2.6604, 'grad_norm': 12.242783546447754, 'learning_rate': 1.0259999999999999e-07, 'epoch': 515.0}
  0%|          | 516/1500000 [24:57<1054:31:34,  2.53s/it]                                                            0%|          | 516/1500000 [24:57<1054:31:34,  2.53s/it]{'loss': 2.6539, 'grad_norm': 12.055078506469727, 'learning_rate': 1.0280000000000001e-07, 'epoch': 516.0}
  0%|          | 517/1500000 [25:00<1084:39:21,  2.60s/it]                                                            0%|          | 517/1500000 [25:00<1084:39:21,  2.60s/it]{'loss': 2.6601, 'grad_norm': 12.192107200622559, 'learning_rate': 1.0300000000000001e-07, 'epoch': 517.0}
  0%|          | 518/1500000 [25:02<1068:14:57,  2.56s/it]                                                            0%|          | 518/1500000 [25:02<1068:14:57,  2.56s/it]{'loss': 2.6519, 'grad_norm': 12.21550178527832, 'learning_rate': 1.032e-07, 'epoch': 518.0}
  0%|          | 519/1500000 [25:05<1099:48:32,  2.64s/it]                                                            0%|          | 519/1500000 [25:05<1099:48:32,  2.64s/it]{'loss': 2.6532, 'grad_norm': 12.127429008483887, 'learning_rate': 1.034e-07, 'epoch': 519.0}
  0%|          | 520/1500000 [25:08<1106:05:40,  2.66s/it]                                                            0%|          | 520/1500000 [25:08<1106:05:40,  2.66s/it]{'loss': 2.6506, 'grad_norm': 12.352490425109863, 'learning_rate': 1.036e-07, 'epoch': 520.0}
  0%|          | 521/1500000 [25:10<1077:05:14,  2.59s/it]                                                            0%|          | 521/1500000 [25:10<1077:05:14,  2.59s/it]{'loss': 2.6317, 'grad_norm': 12.24776554107666, 'learning_rate': 1.038e-07, 'epoch': 521.0}
  0%|          | 522/1500000 [25:13<1057:05:24,  2.54s/it]                                                            0%|          | 522/1500000 [25:13<1057:05:24,  2.54s/it]{'loss': 2.6312, 'grad_norm': 12.271397590637207, 'learning_rate': 1.0399999999999999e-07, 'epoch': 522.0}
  0%|          | 523/1500000 [25:15<1048:53:35,  2.52s/it]                                                            0%|          | 523/1500000 [25:15<1048:53:35,  2.52s/it]{'loss': 2.6369, 'grad_norm': 12.224699020385742, 'learning_rate': 1.042e-07, 'epoch': 523.0}
  0%|          | 524/1500000 [25:18<1043:51:55,  2.51s/it]                                                            0%|          | 524/1500000 [25:18<1043:51:55,  2.51s/it]{'loss': 2.6204, 'grad_norm': 12.220075607299805, 'learning_rate': 1.0440000000000001e-07, 'epoch': 524.0}
  0%|          | 525/1500000 [25:20<1029:24:16,  2.47s/it]                                                            0%|          | 525/1500000 [25:20<1029:24:16,  2.47s/it]{'loss': 2.6326, 'grad_norm': 12.22795295715332, 'learning_rate': 1.046e-07, 'epoch': 525.0}
  0%|          | 526/1500000 [25:23<1023:53:52,  2.46s/it]                                                            0%|          | 526/1500000 [25:23<1023:53:52,  2.46s/it]{'loss': 2.6149, 'grad_norm': 12.34740924835205, 'learning_rate': 1.0480000000000001e-07, 'epoch': 526.0}
  0%|          | 527/1500000 [25:25<1022:05:31,  2.45s/it]                                                            0%|          | 527/1500000 [25:25<1022:05:31,  2.45s/it]{'loss': 2.6164, 'grad_norm': 12.230122566223145, 'learning_rate': 1.05e-07, 'epoch': 527.0}
  0%|          | 528/1500000 [25:28<1043:27:54,  2.51s/it]                                                            0%|          | 528/1500000 [25:28<1043:27:54,  2.51s/it]{'loss': 2.6309, 'grad_norm': 12.330647468566895, 'learning_rate': 1.052e-07, 'epoch': 528.0}
  0%|          | 529/1500000 [25:30<1025:41:16,  2.46s/it]                                                            0%|          | 529/1500000 [25:30<1025:41:16,  2.46s/it]{'loss': 2.6209, 'grad_norm': 12.356557846069336, 'learning_rate': 1.0539999999999999e-07, 'epoch': 529.0}
  0%|          | 530/1500000 [25:33<1059:09:39,  2.54s/it]                                                            0%|          | 530/1500000 [25:33<1059:09:39,  2.54s/it]{'loss': 2.6217, 'grad_norm': 12.29188346862793, 'learning_rate': 1.056e-07, 'epoch': 530.0}
  0%|          | 531/1500000 [25:35<1087:29:54,  2.61s/it]                                                            0%|          | 531/1500000 [25:36<1087:29:54,  2.61s/it]{'loss': 2.6146, 'grad_norm': 12.287971496582031, 'learning_rate': 1.0580000000000001e-07, 'epoch': 531.0}
  0%|          | 532/1500000 [25:39<1138:29:22,  2.73s/it]                                                            0%|          | 532/1500000 [25:39<1138:29:22,  2.73s/it]{'loss': 2.6126, 'grad_norm': 12.18980884552002, 'learning_rate': 1.06e-07, 'epoch': 532.0}
  0%|          | 533/1500000 [25:41<1142:43:42,  2.74s/it]                                                            0%|          | 533/1500000 [25:41<1142:43:42,  2.74s/it]{'loss': 2.6051, 'grad_norm': 12.242353439331055, 'learning_rate': 1.0620000000000001e-07, 'epoch': 533.0}
  0%|          | 534/1500000 [25:44<1104:09:45,  2.65s/it]                                                            0%|          | 534/1500000 [25:44<1104:09:45,  2.65s/it]{'loss': 2.6068, 'grad_norm': 12.454360961914062, 'learning_rate': 1.064e-07, 'epoch': 534.0}
  0%|          | 535/1500000 [25:46<1079:07:04,  2.59s/it]                                                            0%|          | 535/1500000 [25:46<1079:07:04,  2.59s/it]{'loss': 2.6008, 'grad_norm': 12.337672233581543, 'learning_rate': 1.066e-07, 'epoch': 535.0}
  0%|          | 536/1500000 [25:49<1056:42:52,  2.54s/it]                                                            0%|          | 536/1500000 [25:49<1056:42:52,  2.54s/it]{'loss': 2.607, 'grad_norm': 12.186722755432129, 'learning_rate': 1.0679999999999999e-07, 'epoch': 536.0}
  0%|          | 537/1500000 [25:51<1076:05:48,  2.58s/it]                                                            0%|          | 537/1500000 [25:51<1076:05:48,  2.58s/it]{'loss': 2.5985, 'grad_norm': 12.31951904296875, 'learning_rate': 1.07e-07, 'epoch': 537.0}
  0%|          | 538/1500000 [25:54<1088:35:13,  2.61s/it]                                                            0%|          | 538/1500000 [25:54<1088:35:13,  2.61s/it]{'loss': 2.5943, 'grad_norm': 12.17026138305664, 'learning_rate': 1.0720000000000001e-07, 'epoch': 538.0}
  0%|          | 539/1500000 [25:57<1091:38:06,  2.62s/it]                                                            0%|          | 539/1500000 [25:57<1091:38:06,  2.62s/it]{'loss': 2.594, 'grad_norm': 18.204967498779297, 'learning_rate': 1.074e-07, 'epoch': 539.0}
  0%|          | 540/1500000 [25:59<1063:07:56,  2.55s/it]                                                            0%|          | 540/1500000 [25:59<1063:07:56,  2.55s/it]{'loss': 2.5881, 'grad_norm': 12.233588218688965, 'learning_rate': 1.0760000000000001e-07, 'epoch': 540.0}
  0%|          | 541/1500000 [26:02<1063:17:18,  2.55s/it]                                                            0%|          | 541/1500000 [26:02<1063:17:18,  2.55s/it]{'loss': 2.586, 'grad_norm': 12.241497993469238, 'learning_rate': 1.078e-07, 'epoch': 541.0}
  0%|          | 542/1500000 [26:04<1046:37:26,  2.51s/it]                                                            0%|          | 542/1500000 [26:04<1046:37:26,  2.51s/it]{'loss': 2.5895, 'grad_norm': 12.46057415008545, 'learning_rate': 1.08e-07, 'epoch': 542.0}
  0%|          | 543/1500000 [26:07<1055:09:02,  2.53s/it]                                                            0%|          | 543/1500000 [26:07<1055:09:02,  2.53s/it]{'loss': 2.5771, 'grad_norm': 12.249471664428711, 'learning_rate': 1.082e-07, 'epoch': 543.0}
  0%|          | 544/1500000 [26:09<1035:33:20,  2.49s/it]                                                            0%|          | 544/1500000 [26:09<1035:33:20,  2.49s/it]{'loss': 2.5694, 'grad_norm': 12.236038208007812, 'learning_rate': 1.084e-07, 'epoch': 544.0}
  0%|          | 545/1500000 [26:11<1034:16:56,  2.48s/it]                                                            0%|          | 545/1500000 [26:11<1034:16:56,  2.48s/it]{'loss': 2.5789, 'grad_norm': 12.266402244567871, 'learning_rate': 1.086e-07, 'epoch': 545.0}
  0%|          | 546/1500000 [26:14<1059:38:53,  2.54s/it]                                                            0%|          | 546/1500000 [26:14<1059:38:53,  2.54s/it]{'loss': 2.5743, 'grad_norm': 12.563057899475098, 'learning_rate': 1.088e-07, 'epoch': 546.0}
  0%|          | 547/1500000 [26:17<1046:24:56,  2.51s/it]                                                            0%|          | 547/1500000 [26:17<1046:24:56,  2.51s/it]{'loss': 2.5675, 'grad_norm': 12.196041107177734, 'learning_rate': 1.0900000000000001e-07, 'epoch': 547.0}
  0%|          | 548/1500000 [26:19<1035:12:26,  2.49s/it]                                                            0%|          | 548/1500000 [26:19<1035:12:26,  2.49s/it]{'loss': 2.565, 'grad_norm': 12.131300926208496, 'learning_rate': 1.092e-07, 'epoch': 548.0}
  0%|          | 549/1500000 [26:21<1028:08:51,  2.47s/it]                                                            0%|          | 549/1500000 [26:21<1028:08:51,  2.47s/it]{'loss': 2.5663, 'grad_norm': 12.215279579162598, 'learning_rate': 1.094e-07, 'epoch': 549.0}
  0%|          | 550/1500000 [26:24<1024:13:56,  2.46s/it]                                                            0%|          | 550/1500000 [26:24<1024:13:56,  2.46s/it]{'loss': 2.5776, 'grad_norm': 12.245742797851562, 'learning_rate': 1.096e-07, 'epoch': 550.0}
  0%|          | 551/1500000 [26:26<1018:02:36,  2.44s/it]                                                            0%|          | 551/1500000 [26:26<1018:02:36,  2.44s/it]{'loss': 2.5417, 'grad_norm': 12.052889823913574, 'learning_rate': 1.098e-07, 'epoch': 551.0}
  0%|          | 552/1500000 [26:29<1025:26:31,  2.46s/it]                                                            0%|          | 552/1500000 [26:29<1025:26:31,  2.46s/it]{'loss': 2.5547, 'grad_norm': 12.293939590454102, 'learning_rate': 1.1e-07, 'epoch': 552.0}
  0%|          | 553/1500000 [26:31<1025:05:02,  2.46s/it]                                                            0%|          | 553/1500000 [26:31<1025:05:02,  2.46s/it]{'loss': 2.56, 'grad_norm': 12.450530052185059, 'learning_rate': 1.102e-07, 'epoch': 553.0}
  0%|          | 554/1500000 [26:34<1022:21:46,  2.45s/it]                                                            0%|          | 554/1500000 [26:34<1022:21:46,  2.45s/it]{'loss': 2.5583, 'grad_norm': 13.640376091003418, 'learning_rate': 1.1040000000000001e-07, 'epoch': 554.0}
  0%|          | 555/1500000 [26:36<1021:33:17,  2.45s/it]                                                            0%|          | 555/1500000 [26:36<1021:33:17,  2.45s/it]{'loss': 2.5417, 'grad_norm': 12.407381057739258, 'learning_rate': 1.106e-07, 'epoch': 555.0}
  0%|          | 556/1500000 [26:39<1020:33:04,  2.45s/it]                                                            0%|          | 556/1500000 [26:39<1020:33:04,  2.45s/it]{'loss': 2.5416, 'grad_norm': 12.170297622680664, 'learning_rate': 1.108e-07, 'epoch': 556.0}
  0%|          | 557/1500000 [26:41<1021:49:20,  2.45s/it]                                                            0%|          | 557/1500000 [26:41<1021:49:20,  2.45s/it]{'loss': 2.5354, 'grad_norm': 12.162907600402832, 'learning_rate': 1.11e-07, 'epoch': 557.0}
  0%|          | 558/1500000 [26:43<1020:14:38,  2.45s/it]                                                            0%|          | 558/1500000 [26:43<1020:14:38,  2.45s/it]{'loss': 2.5411, 'grad_norm': 12.028426170349121, 'learning_rate': 1.112e-07, 'epoch': 558.0}
  0%|          | 559/1500000 [26:46<1020:08:09,  2.45s/it]                                                            0%|          | 559/1500000 [26:46<1020:08:09,  2.45s/it]{'loss': 2.5344, 'grad_norm': 12.479491233825684, 'learning_rate': 1.114e-07, 'epoch': 559.0}
  0%|          | 560/1500000 [26:48<1030:43:09,  2.47s/it]                                                            0%|          | 560/1500000 [26:48<1030:43:09,  2.47s/it]{'loss': 2.5323, 'grad_norm': 12.1405611038208, 'learning_rate': 1.1160000000000001e-07, 'epoch': 560.0}
  0%|          | 561/1500000 [26:51<1042:35:24,  2.50s/it]                                                            0%|          | 561/1500000 [26:51<1042:35:24,  2.50s/it]{'loss': 2.5313, 'grad_norm': 13.117606163024902, 'learning_rate': 1.1180000000000001e-07, 'epoch': 561.0}
  0%|          | 562/1500000 [26:53<1032:54:56,  2.48s/it]                                                            0%|          | 562/1500000 [26:53<1032:54:56,  2.48s/it]{'loss': 2.532, 'grad_norm': 12.277719497680664, 'learning_rate': 1.12e-07, 'epoch': 562.0}
  0%|          | 563/1500000 [26:56<1067:26:17,  2.56s/it]                                                            0%|          | 563/1500000 [26:56<1067:26:17,  2.56s/it]{'loss': 2.5322, 'grad_norm': 12.15686321258545, 'learning_rate': 1.122e-07, 'epoch': 563.0}
  0%|          | 564/1500000 [26:59<1090:36:28,  2.62s/it]                                                            0%|          | 564/1500000 [26:59<1090:36:28,  2.62s/it]{'loss': 2.5193, 'grad_norm': 12.113876342773438, 'learning_rate': 1.124e-07, 'epoch': 564.0}
  0%|          | 565/1500000 [27:01<1060:56:51,  2.55s/it]                                                            0%|          | 565/1500000 [27:01<1060:56:51,  2.55s/it]{'loss': 2.5195, 'grad_norm': 12.235139846801758, 'learning_rate': 1.126e-07, 'epoch': 565.0}
  0%|          | 566/1500000 [27:04<1042:45:54,  2.50s/it]                                                            0%|          | 566/1500000 [27:04<1042:45:54,  2.50s/it]{'loss': 2.5239, 'grad_norm': 12.226005554199219, 'learning_rate': 1.128e-07, 'epoch': 566.0}
  0%|          | 567/1500000 [27:06<1031:08:40,  2.48s/it]                                                            0%|          | 567/1500000 [27:06<1031:08:40,  2.48s/it]{'loss': 2.5138, 'grad_norm': 12.114358901977539, 'learning_rate': 1.13e-07, 'epoch': 567.0}
  0%|          | 568/1500000 [27:09<1057:27:10,  2.54s/it]                                                            0%|          | 568/1500000 [27:09<1057:27:10,  2.54s/it]{'loss': 2.5122, 'grad_norm': 12.121891975402832, 'learning_rate': 1.1320000000000001e-07, 'epoch': 568.0}
  0%|          | 569/1500000 [27:11<1074:06:11,  2.58s/it]                                                            0%|          | 569/1500000 [27:11<1074:06:11,  2.58s/it]{'loss': 2.5012, 'grad_norm': 11.997997283935547, 'learning_rate': 1.134e-07, 'epoch': 569.0}
  0%|          | 570/1500000 [27:14<1096:28:24,  2.63s/it]                                                            0%|          | 570/1500000 [27:14<1096:28:24,  2.63s/it]{'loss': 2.5071, 'grad_norm': 12.192588806152344, 'learning_rate': 1.136e-07, 'epoch': 570.0}
  0%|          | 571/1500000 [27:17<1085:13:45,  2.61s/it]                                                            0%|          | 571/1500000 [27:17<1085:13:45,  2.61s/it]{'loss': 2.4906, 'grad_norm': 12.19293212890625, 'learning_rate': 1.138e-07, 'epoch': 571.0}
  0%|          | 572/1500000 [27:19<1068:34:30,  2.57s/it]                                                            0%|          | 572/1500000 [27:19<1068:34:30,  2.57s/it]{'loss': 2.4985, 'grad_norm': 12.583653450012207, 'learning_rate': 1.14e-07, 'epoch': 572.0}
  0%|          | 573/1500000 [27:22<1045:26:27,  2.51s/it]                                                            0%|          | 573/1500000 [27:22<1045:26:27,  2.51s/it]{'loss': 2.4917, 'grad_norm': 11.987929344177246, 'learning_rate': 1.142e-07, 'epoch': 573.0}
  0%|          | 574/1500000 [27:24<1079:42:02,  2.59s/it]                                                            0%|          | 574/1500000 [27:24<1079:42:02,  2.59s/it]{'loss': 2.4952, 'grad_norm': 12.117170333862305, 'learning_rate': 1.144e-07, 'epoch': 574.0}
  0%|          | 575/1500000 [27:27<1061:22:01,  2.55s/it]                                                            0%|          | 575/1500000 [27:27<1061:22:01,  2.55s/it]{'loss': 2.4851, 'grad_norm': 11.940783500671387, 'learning_rate': 1.1460000000000001e-07, 'epoch': 575.0}
  0%|          | 576/1500000 [27:29<1057:56:50,  2.54s/it]                                                            0%|          | 576/1500000 [27:29<1057:56:50,  2.54s/it]{'loss': 2.4815, 'grad_norm': 11.956337928771973, 'learning_rate': 1.148e-07, 'epoch': 576.0}
  0%|          | 577/1500000 [27:32<1044:54:25,  2.51s/it]                                                            0%|          | 577/1500000 [27:32<1044:54:25,  2.51s/it]{'loss': 2.4857, 'grad_norm': 12.032047271728516, 'learning_rate': 1.15e-07, 'epoch': 577.0}
  0%|          | 578/1500000 [27:34<1056:37:16,  2.54s/it]                                                            0%|          | 578/1500000 [27:34<1056:37:16,  2.54s/it]{'loss': 2.5032, 'grad_norm': 12.010019302368164, 'learning_rate': 1.152e-07, 'epoch': 578.0}
  0%|          | 579/1500000 [27:37<1075:20:50,  2.58s/it]                                                            0%|          | 579/1500000 [27:37<1075:20:50,  2.58s/it]{'loss': 2.4833, 'grad_norm': 12.093935012817383, 'learning_rate': 1.154e-07, 'epoch': 579.0}
  0%|          | 580/1500000 [27:40<1095:51:28,  2.63s/it]                                                            0%|          | 580/1500000 [27:40<1095:51:28,  2.63s/it]{'loss': 2.4772, 'grad_norm': 12.034228324890137, 'learning_rate': 1.156e-07, 'epoch': 580.0}
  0%|          | 581/1500000 [27:42<1079:32:06,  2.59s/it]                                                            0%|          | 581/1500000 [27:42<1079:32:06,  2.59s/it]{'loss': 2.4637, 'grad_norm': 11.914022445678711, 'learning_rate': 1.158e-07, 'epoch': 581.0}
  0%|          | 582/1500000 [27:45<1071:42:46,  2.57s/it]                                                            0%|          | 582/1500000 [27:45<1071:42:46,  2.57s/it]{'loss': 2.4739, 'grad_norm': 11.948872566223145, 'learning_rate': 1.16e-07, 'epoch': 582.0}
  0%|          | 583/1500000 [27:47<1048:10:34,  2.52s/it]                                                            0%|          | 583/1500000 [27:47<1048:10:34,  2.52s/it]{'loss': 2.465, 'grad_norm': 11.909489631652832, 'learning_rate': 1.162e-07, 'epoch': 583.0}
  0%|          | 584/1500000 [27:50<1037:48:02,  2.49s/it]                                                            0%|          | 584/1500000 [27:50<1037:48:02,  2.49s/it]{'loss': 2.4537, 'grad_norm': 11.74378490447998, 'learning_rate': 1.1640000000000001e-07, 'epoch': 584.0}
  0%|          | 585/1500000 [27:52<1077:00:11,  2.59s/it]                                                            0%|          | 585/1500000 [27:52<1077:00:11,  2.59s/it]{'loss': 2.4548, 'grad_norm': 11.881441116333008, 'learning_rate': 1.1660000000000001e-07, 'epoch': 585.0}
  0%|          | 586/1500000 [27:55<1043:12:50,  2.50s/it]                                                            0%|          | 586/1500000 [27:55<1043:12:50,  2.50s/it]{'loss': 2.4681, 'grad_norm': 11.87314224243164, 'learning_rate': 1.168e-07, 'epoch': 586.0}
  0%|          | 587/1500000 [27:58<1083:10:53,  2.60s/it]                                                            0%|          | 587/1500000 [27:58<1083:10:53,  2.60s/it]{'loss': 2.4522, 'grad_norm': 11.840418815612793, 'learning_rate': 1.17e-07, 'epoch': 587.0}
  0%|          | 588/1500000 [28:00<1102:23:08,  2.65s/it]                                                            0%|          | 588/1500000 [28:00<1102:23:08,  2.65s/it]{'loss': 2.4571, 'grad_norm': 11.834649085998535, 'learning_rate': 1.172e-07, 'epoch': 588.0}
  0%|          | 589/1500000 [28:03<1113:47:50,  2.67s/it]                                                            0%|          | 589/1500000 [28:03<1113:47:50,  2.67s/it]{'loss': 2.4444, 'grad_norm': 11.969027519226074, 'learning_rate': 1.1739999999999999e-07, 'epoch': 589.0}
  0%|          | 590/1500000 [28:06<1086:09:26,  2.61s/it]                                                            0%|          | 590/1500000 [28:06<1086:09:26,  2.61s/it]{'loss': 2.4383, 'grad_norm': 11.860997200012207, 'learning_rate': 1.176e-07, 'epoch': 590.0}
  0%|          | 591/1500000 [28:08<1105:06:35,  2.65s/it]                                                            0%|          | 591/1500000 [28:08<1105:06:35,  2.65s/it]{'loss': 2.445, 'grad_norm': 12.009476661682129, 'learning_rate': 1.1780000000000001e-07, 'epoch': 591.0}
  0%|          | 592/1500000 [28:11<1074:48:39,  2.58s/it]                                                            0%|          | 592/1500000 [28:11<1074:48:39,  2.58s/it]{'loss': 2.4473, 'grad_norm': 11.746870040893555, 'learning_rate': 1.18e-07, 'epoch': 592.0}
  0%|          | 593/1500000 [28:13<1074:10:51,  2.58s/it]                                                            0%|          | 593/1500000 [28:13<1074:10:51,  2.58s/it]{'loss': 2.4397, 'grad_norm': 12.015225410461426, 'learning_rate': 1.182e-07, 'epoch': 593.0}
  0%|          | 594/1500000 [28:16<1059:18:51,  2.54s/it]                                                            0%|          | 594/1500000 [28:16<1059:18:51,  2.54s/it]{'loss': 2.4295, 'grad_norm': 11.703897476196289, 'learning_rate': 1.1840000000000001e-07, 'epoch': 594.0}
  0%|          | 595/1500000 [28:18<1042:33:29,  2.50s/it]                                                            0%|          | 595/1500000 [28:18<1042:33:29,  2.50s/it]{'loss': 2.4291, 'grad_norm': 11.80257797241211, 'learning_rate': 1.1859999999999999e-07, 'epoch': 595.0}
  0%|          | 596/1500000 [28:21<1039:49:20,  2.50s/it]                                                            0%|          | 596/1500000 [28:21<1039:49:20,  2.50s/it]{'loss': 2.4288, 'grad_norm': 11.711783409118652, 'learning_rate': 1.188e-07, 'epoch': 596.0}
  0%|          | 597/1500000 [28:23<1031:29:57,  2.48s/it]                                                            0%|          | 597/1500000 [28:23<1031:29:57,  2.48s/it]{'loss': 2.4277, 'grad_norm': 11.82083797454834, 'learning_rate': 1.1900000000000001e-07, 'epoch': 597.0}
  0%|          | 598/1500000 [28:26<1030:48:34,  2.47s/it]                                                            0%|          | 598/1500000 [28:26<1030:48:34,  2.47s/it]{'loss': 2.4289, 'grad_norm': 11.693363189697266, 'learning_rate': 1.192e-07, 'epoch': 598.0}
  0%|          | 599/1500000 [28:28<1023:24:04,  2.46s/it]                                                            0%|          | 599/1500000 [28:28<1023:24:04,  2.46s/it]{'loss': 2.4284, 'grad_norm': 11.72928524017334, 'learning_rate': 1.194e-07, 'epoch': 599.0}
  0%|          | 600/1500000 [28:30<1019:54:05,  2.45s/it]                                                            0%|          | 600/1500000 [28:30<1019:54:05,  2.45s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 2.4205, 'grad_norm': 11.666656494140625, 'learning_rate': 1.196e-07, 'epoch': 600.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:02,  1.68it/s][A
 43%|████▎     | 3/7 [00:02<00:04,  1.10s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.39s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.35s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.45s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A                                                          
                                             [A  0%|          | 600/1500000 [29:00<1019:54:05,  2.45s/it]
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-400] due to args.save_total_limit
{'eval_loss': 5.037107467651367, 'eval_wer': 1.0002293052052282, 'eval_cer': 0.8403172116702565, 'eval_runtime': 16.9985, 'eval_samples_per_second': 57.829, 'eval_steps_per_second': 0.412, 'epoch': 600.0}
  0%|          | 601/1500000 [29:14<6116:49:51, 14.69s/it]                                                            0%|          | 601/1500000 [29:14<6116:49:51, 14.69s/it]{'loss': 2.408, 'grad_norm': 11.951766967773438, 'learning_rate': 1.198e-07, 'epoch': 601.0}
  0%|          | 602/1500000 [29:16<4586:38:36, 11.01s/it]                                                            0%|          | 602/1500000 [29:16<4586:38:36, 11.01s/it]{'loss': 2.4103, 'grad_norm': 11.566437721252441, 'learning_rate': 1.2000000000000002e-07, 'epoch': 602.0}
  0%|          | 603/1500000 [29:19<3552:25:09,  8.53s/it]                                                            0%|          | 603/1500000 [29:19<3552:25:09,  8.53s/it]{'loss': 2.4009, 'grad_norm': 11.606474876403809, 'learning_rate': 1.202e-07, 'epoch': 603.0}
  0%|          | 604/1500000 [29:21<2784:41:04,  6.69s/it]                                                            0%|          | 604/1500000 [29:21<2784:41:04,  6.69s/it]{'loss': 2.3996, 'grad_norm': 11.562533378601074, 'learning_rate': 1.204e-07, 'epoch': 604.0}
  0%|          | 605/1500000 [29:24<2288:10:11,  5.49s/it]                                                            0%|          | 605/1500000 [29:24<2288:10:11,  5.49s/it]{'loss': 2.4014, 'grad_norm': 11.542885780334473, 'learning_rate': 1.206e-07, 'epoch': 605.0}
  0%|          | 606/1500000 [29:27<1940:24:41,  4.66s/it]                                                            0%|          | 606/1500000 [29:27<1940:24:41,  4.66s/it]{'loss': 2.4017, 'grad_norm': 11.566338539123535, 'learning_rate': 1.208e-07, 'epoch': 606.0}
  0%|          | 607/1500000 [29:29<1661:35:17,  3.99s/it]                                                            0%|          | 607/1500000 [29:29<1661:35:17,  3.99s/it]{'loss': 2.3952, 'grad_norm': 11.458148956298828, 'learning_rate': 1.21e-07, 'epoch': 607.0}
  0%|          | 608/1500000 [29:31<1463:44:13,  3.51s/it]                                                            0%|          | 608/1500000 [29:31<1463:44:13,  3.51s/it]{'loss': 2.3967, 'grad_norm': 14.193873405456543, 'learning_rate': 1.212e-07, 'epoch': 608.0}
  0%|          | 609/1500000 [29:34<1324:22:37,  3.18s/it]                                                            0%|          | 609/1500000 [29:34<1324:22:37,  3.18s/it]{'loss': 2.389, 'grad_norm': 11.47777271270752, 'learning_rate': 1.214e-07, 'epoch': 609.0}
  0%|          | 610/1500000 [29:36<1234:14:19,  2.96s/it]                                                            0%|          | 610/1500000 [29:36<1234:14:19,  2.96s/it]{'loss': 2.3831, 'grad_norm': 11.448812484741211, 'learning_rate': 1.216e-07, 'epoch': 610.0}
  0%|          | 611/1500000 [29:39<1167:12:08,  2.80s/it]                                                            0%|          | 611/1500000 [29:39<1167:12:08,  2.80s/it]{'loss': 2.3849, 'grad_norm': 12.196322441101074, 'learning_rate': 1.2180000000000002e-07, 'epoch': 611.0}
  0%|          | 612/1500000 [29:41<1159:19:39,  2.78s/it]                                                            0%|          | 612/1500000 [29:42<1159:19:39,  2.78s/it]{'loss': 2.3796, 'grad_norm': 11.374847412109375, 'learning_rate': 1.2199999999999998e-07, 'epoch': 612.0}
  0%|          | 613/1500000 [29:44<1097:06:58,  2.63s/it]                                                            0%|          | 613/1500000 [29:44<1097:06:58,  2.63s/it]{'loss': 2.3819, 'grad_norm': 11.309586524963379, 'learning_rate': 1.222e-07, 'epoch': 613.0}
  0%|          | 614/1500000 [29:46<1002:24:36,  2.41s/it]                                                            0%|          | 614/1500000 [29:46<1002:24:36,  2.41s/it]{'loss': 2.3761, 'grad_norm': 11.463987350463867, 'learning_rate': 1.224e-07, 'epoch': 614.0}
  0%|          | 615/1500000 [29:48<935:46:14,  2.25s/it]                                                            0%|          | 615/1500000 [29:48<935:46:14,  2.25s/it]{'loss': 2.382, 'grad_norm': 11.312531471252441, 'learning_rate': 1.226e-07, 'epoch': 615.0}
  0%|          | 616/1500000 [29:49<886:44:25,  2.13s/it]                                                           0%|          | 616/1500000 [29:49<886:44:25,  2.13s/it]{'loss': 2.3692, 'grad_norm': 11.211553573608398, 'learning_rate': 1.2280000000000001e-07, 'epoch': 616.0}
  0%|          | 617/1500000 [29:52<889:13:42,  2.14s/it]                                                           0%|          | 617/1500000 [29:52<889:13:42,  2.14s/it]{'loss': 2.3818, 'grad_norm': 11.504518508911133, 'learning_rate': 1.23e-07, 'epoch': 617.0}
  0%|          | 618/1500000 [29:53<861:14:42,  2.07s/it]                                                           0%|          | 618/1500000 [29:53<861:14:42,  2.07s/it]{'loss': 2.3683, 'grad_norm': 11.214263916015625, 'learning_rate': 1.232e-07, 'epoch': 618.0}
  0%|          | 619/1500000 [29:55<832:59:08,  2.00s/it]                                                           0%|          | 619/1500000 [29:55<832:59:08,  2.00s/it]{'loss': 2.3583, 'grad_norm': 11.280388832092285, 'learning_rate': 1.234e-07, 'epoch': 619.0}
  0%|          | 620/1500000 [29:57<814:08:46,  1.95s/it]                                                           0%|          | 620/1500000 [29:57<814:08:46,  1.95s/it]{'loss': 2.3515, 'grad_norm': 11.073616981506348, 'learning_rate': 1.2360000000000002e-07, 'epoch': 620.0}
  0%|          | 621/1500000 [29:59<801:48:00,  1.93s/it]                                                           0%|          | 621/1500000 [29:59<801:48:00,  1.93s/it]{'loss': 2.3508, 'grad_norm': 11.104537963867188, 'learning_rate': 1.238e-07, 'epoch': 621.0}
  0%|          | 622/1500000 [30:01<804:50:18,  1.93s/it]                                                           0%|          | 622/1500000 [30:01<804:50:18,  1.93s/it]{'loss': 2.3525, 'grad_norm': 11.255836486816406, 'learning_rate': 1.24e-07, 'epoch': 622.0}
  0%|          | 623/1500000 [30:03<796:32:03,  1.91s/it]                                                           0%|          | 623/1500000 [30:03<796:32:03,  1.91s/it]{'loss': 2.3391, 'grad_norm': 11.04685115814209, 'learning_rate': 1.242e-07, 'epoch': 623.0}
  0%|          | 624/1500000 [30:05<787:35:31,  1.89s/it]                                                           0%|          | 624/1500000 [30:05<787:35:31,  1.89s/it]{'loss': 2.3473, 'grad_norm': 11.041519165039062, 'learning_rate': 1.244e-07, 'epoch': 624.0}
  0%|          | 625/1500000 [30:07<791:52:59,  1.90s/it]                                                           0%|          | 625/1500000 [30:07<791:52:59,  1.90s/it]{'loss': 2.3455, 'grad_norm': 11.023601531982422, 'learning_rate': 1.2460000000000002e-07, 'epoch': 625.0}
  0%|          | 626/1500000 [30:08<786:18:34,  1.89s/it]                                                           0%|          | 626/1500000 [30:08<786:18:34,  1.89s/it]{'loss': 2.3351, 'grad_norm': 10.905499458312988, 'learning_rate': 1.2479999999999998e-07, 'epoch': 626.0}
  0%|          | 627/1500000 [30:10<782:27:43,  1.88s/it]                                                           0%|          | 627/1500000 [30:10<782:27:43,  1.88s/it]{'loss': 2.3408, 'grad_norm': 11.0589017868042, 'learning_rate': 1.25e-07, 'epoch': 627.0}
  0%|          | 628/1500000 [30:12<784:18:30,  1.88s/it]                                                           0%|          | 628/1500000 [30:12<784:18:30,  1.88s/it]{'loss': 2.3285, 'grad_norm': 10.876988410949707, 'learning_rate': 1.252e-07, 'epoch': 628.0}
  0%|          | 629/1500000 [30:14<813:36:57,  1.95s/it]                                                           0%|          | 629/1500000 [30:14<813:36:57,  1.95s/it]{'loss': 2.328, 'grad_norm': 11.024730682373047, 'learning_rate': 1.254e-07, 'epoch': 629.0}
  0%|          | 630/1500000 [30:16<802:47:16,  1.93s/it]                                                           0%|          | 630/1500000 [30:16<802:47:16,  1.93s/it]{'loss': 2.3282, 'grad_norm': 11.021872520446777, 'learning_rate': 1.256e-07, 'epoch': 630.0}
  0%|          | 631/1500000 [30:18<801:31:01,  1.92s/it]                                                           0%|          | 631/1500000 [30:18<801:31:01,  1.92s/it]{'loss': 2.3174, 'grad_norm': 10.838127136230469, 'learning_rate': 1.258e-07, 'epoch': 631.0}
  0%|          | 632/1500000 [30:20<797:54:07,  1.92s/it]                                                           0%|          | 632/1500000 [30:20<797:54:07,  1.92s/it]{'loss': 2.3191, 'grad_norm': 10.823738098144531, 'learning_rate': 1.26e-07, 'epoch': 632.0}
  0%|          | 633/1500000 [30:22<791:03:51,  1.90s/it]                                                           0%|          | 633/1500000 [30:22<791:03:51,  1.90s/it]{'loss': 2.3113, 'grad_norm': 10.822464942932129, 'learning_rate': 1.262e-07, 'epoch': 633.0}
  0%|          | 634/1500000 [30:24<788:04:01,  1.89s/it]                                                           0%|          | 634/1500000 [30:24<788:04:01,  1.89s/it]{'loss': 2.3153, 'grad_norm': 10.870749473571777, 'learning_rate': 1.2640000000000002e-07, 'epoch': 634.0}
  0%|          | 635/1500000 [30:26<784:07:03,  1.88s/it]                                                           0%|          | 635/1500000 [30:26<784:07:03,  1.88s/it]{'loss': 2.3133, 'grad_norm': 11.348624229431152, 'learning_rate': 1.266e-07, 'epoch': 635.0}
  0%|          | 636/1500000 [30:28<795:24:11,  1.91s/it]                                                           0%|          | 636/1500000 [30:28<795:24:11,  1.91s/it]{'loss': 2.3037, 'grad_norm': 10.661872863769531, 'learning_rate': 1.268e-07, 'epoch': 636.0}
  0%|          | 637/1500000 [30:30<839:15:17,  2.02s/it]                                                           0%|          | 637/1500000 [30:30<839:15:17,  2.02s/it]{'loss': 2.3011, 'grad_norm': 10.684494018554688, 'learning_rate': 1.27e-07, 'epoch': 637.0}
  0%|          | 638/1500000 [30:32<820:49:50,  1.97s/it]                                                           0%|          | 638/1500000 [30:32<820:49:50,  1.97s/it]{'loss': 2.2998, 'grad_norm': 10.710796356201172, 'learning_rate': 1.272e-07, 'epoch': 638.0}
  0%|          | 639/1500000 [30:34<819:03:42,  1.97s/it]                                                           0%|          | 639/1500000 [30:34<819:03:42,  1.97s/it]{'loss': 2.2948, 'grad_norm': 10.703019142150879, 'learning_rate': 1.2740000000000002e-07, 'epoch': 639.0}
  0%|          | 640/1500000 [30:35<799:46:16,  1.92s/it]                                                           0%|          | 640/1500000 [30:35<799:46:16,  1.92s/it]{'loss': 2.2938, 'grad_norm': 10.913640975952148, 'learning_rate': 1.2759999999999998e-07, 'epoch': 640.0}
  0%|          | 641/1500000 [30:37<793:16:32,  1.90s/it]                                                           0%|          | 641/1500000 [30:37<793:16:32,  1.90s/it]{'loss': 2.2952, 'grad_norm': 10.655366897583008, 'learning_rate': 1.278e-07, 'epoch': 641.0}
  0%|          | 642/1500000 [30:39<793:09:35,  1.90s/it]                                                           0%|          | 642/1500000 [30:39<793:09:35,  1.90s/it]{'loss': 2.2804, 'grad_norm': 10.349207878112793, 'learning_rate': 1.28e-07, 'epoch': 642.0}
  0%|          | 643/1500000 [30:41<785:51:38,  1.89s/it]                                                           0%|          | 643/1500000 [30:41<785:51:38,  1.89s/it]{'loss': 2.2837, 'grad_norm': 13.071294784545898, 'learning_rate': 1.282e-07, 'epoch': 643.0}
  0%|          | 644/1500000 [30:43<777:01:58,  1.87s/it]                                                           0%|          | 644/1500000 [30:43<777:01:58,  1.87s/it]{'loss': 2.2864, 'grad_norm': 12.275002479553223, 'learning_rate': 1.284e-07, 'epoch': 644.0}
  0%|          | 645/1500000 [30:45<808:25:27,  1.94s/it]                                                           0%|          | 645/1500000 [30:45<808:25:27,  1.94s/it]{'loss': 2.2742, 'grad_norm': 13.414412498474121, 'learning_rate': 1.286e-07, 'epoch': 645.0}
  0%|          | 646/1500000 [30:47<797:56:50,  1.92s/it]                                                           0%|          | 646/1500000 [30:47<797:56:50,  1.92s/it]{'loss': 2.2717, 'grad_norm': 10.371249198913574, 'learning_rate': 1.288e-07, 'epoch': 646.0}
  0%|          | 647/1500000 [30:49<785:26:55,  1.89s/it]                                                           0%|          | 647/1500000 [30:49<785:26:55,  1.89s/it]{'loss': 2.2669, 'grad_norm': 10.410788536071777, 'learning_rate': 1.29e-07, 'epoch': 647.0}
  0%|          | 648/1500000 [30:51<782:48:23,  1.88s/it]                                                           0%|          | 648/1500000 [30:51<782:48:23,  1.88s/it]{'loss': 2.2753, 'grad_norm': 10.485034942626953, 'learning_rate': 1.2920000000000002e-07, 'epoch': 648.0}
  0%|          | 649/1500000 [30:52<774:59:15,  1.86s/it]                                                           0%|          | 649/1500000 [30:52<774:59:15,  1.86s/it]{'loss': 2.26, 'grad_norm': 10.36801528930664, 'learning_rate': 1.294e-07, 'epoch': 649.0}
  0%|          | 650/1500000 [30:54<772:40:05,  1.86s/it]                                                           0%|          | 650/1500000 [30:54<772:40:05,  1.86s/it]{'loss': 2.2535, 'grad_norm': 10.879667282104492, 'learning_rate': 1.296e-07, 'epoch': 650.0}
  0%|          | 651/1500000 [30:56<774:55:37,  1.86s/it]                                                           0%|          | 651/1500000 [30:56<774:55:37,  1.86s/it]{'loss': 2.2566, 'grad_norm': 10.390414237976074, 'learning_rate': 1.298e-07, 'epoch': 651.0}
  0%|          | 652/1500000 [30:58<775:49:06,  1.86s/it]                                                           0%|          | 652/1500000 [30:58<775:49:06,  1.86s/it]{'loss': 2.2568, 'grad_norm': 10.399765014648438, 'learning_rate': 1.3e-07, 'epoch': 652.0}
  0%|          | 653/1500000 [31:00<770:28:44,  1.85s/it]                                                           0%|          | 653/1500000 [31:00<770:28:44,  1.85s/it]{'loss': 2.2573, 'grad_norm': 11.160334587097168, 'learning_rate': 1.3020000000000001e-07, 'epoch': 653.0}
  0%|          | 654/1500000 [31:02<775:54:17,  1.86s/it]                                                           0%|          | 654/1500000 [31:02<775:54:17,  1.86s/it]{'loss': 2.2417, 'grad_norm': 10.745936393737793, 'learning_rate': 1.304e-07, 'epoch': 654.0}
  0%|          | 655/1500000 [31:03<775:56:56,  1.86s/it]                                                           0%|          | 655/1500000 [31:04<775:56:56,  1.86s/it]{'loss': 2.2533, 'grad_norm': 10.264169692993164, 'learning_rate': 1.306e-07, 'epoch': 655.0}
  0%|          | 656/1500000 [31:05<776:43:34,  1.86s/it]                                                           0%|          | 656/1500000 [31:05<776:43:34,  1.86s/it]{'loss': 2.2501, 'grad_norm': 10.28345775604248, 'learning_rate': 1.308e-07, 'epoch': 656.0}
  0%|          | 657/1500000 [31:07<780:55:37,  1.88s/it]                                                           0%|          | 657/1500000 [31:07<780:55:37,  1.88s/it]{'loss': 2.2416, 'grad_norm': 10.288827896118164, 'learning_rate': 1.31e-07, 'epoch': 657.0}
  0%|          | 658/1500000 [31:09<781:58:08,  1.88s/it]                                                           0%|          | 658/1500000 [31:09<781:58:08,  1.88s/it]{'loss': 2.2357, 'grad_norm': 10.2193603515625, 'learning_rate': 1.312e-07, 'epoch': 658.0}
  0%|          | 659/1500000 [31:11<808:58:45,  1.94s/it]                                                           0%|          | 659/1500000 [31:11<808:58:45,  1.94s/it]{'loss': 2.2382, 'grad_norm': 10.213516235351562, 'learning_rate': 1.314e-07, 'epoch': 659.0}
  0%|          | 660/1500000 [31:13<797:49:36,  1.92s/it]                                                           0%|          | 660/1500000 [31:13<797:49:36,  1.92s/it]{'loss': 2.226, 'grad_norm': 10.108016967773438, 'learning_rate': 1.316e-07, 'epoch': 660.0}
  0%|          | 661/1500000 [31:15<788:03:59,  1.89s/it]                                                           0%|          | 661/1500000 [31:15<788:03:59,  1.89s/it]{'loss': 2.2242, 'grad_norm': 10.128152847290039, 'learning_rate': 1.318e-07, 'epoch': 661.0}
  0%|          | 662/1500000 [31:17<779:13:23,  1.87s/it]                                                           0%|          | 662/1500000 [31:17<779:13:23,  1.87s/it]{'loss': 2.2194, 'grad_norm': 10.027083396911621, 'learning_rate': 1.3200000000000002e-07, 'epoch': 662.0}
  0%|          | 663/1500000 [31:19<774:25:04,  1.86s/it]                                                           0%|          | 663/1500000 [31:19<774:25:04,  1.86s/it]{'loss': 2.2142, 'grad_norm': 9.981788635253906, 'learning_rate': 1.322e-07, 'epoch': 663.0}
  0%|          | 664/1500000 [31:20<775:38:45,  1.86s/it]                                                           0%|          | 664/1500000 [31:20<775:38:45,  1.86s/it]{'loss': 2.2122, 'grad_norm': 10.083314895629883, 'learning_rate': 1.324e-07, 'epoch': 664.0}
  0%|          | 665/1500000 [31:23<801:34:34,  1.92s/it]                                                           0%|          | 665/1500000 [31:23<801:34:34,  1.92s/it]{'loss': 2.2251, 'grad_norm': 9.96965217590332, 'learning_rate': 1.326e-07, 'epoch': 665.0}
  0%|          | 666/1500000 [31:24<784:55:43,  1.88s/it]                                                           0%|          | 666/1500000 [31:24<784:55:43,  1.88s/it]{'loss': 2.2081, 'grad_norm': 31.087574005126953, 'learning_rate': 1.328e-07, 'epoch': 666.0}
  0%|          | 667/1500000 [31:26<806:56:58,  1.94s/it]                                                           0%|          | 667/1500000 [31:26<806:56:58,  1.94s/it]{'loss': 2.2044, 'grad_norm': 10.049640655517578, 'learning_rate': 1.33e-07, 'epoch': 667.0}
  0%|          | 668/1500000 [31:28<790:46:05,  1.90s/it]                                                           0%|          | 668/1500000 [31:28<790:46:05,  1.90s/it]{'loss': 2.2035, 'grad_norm': 9.877142906188965, 'learning_rate': 1.332e-07, 'epoch': 668.0}
  0%|          | 669/1500000 [31:30<782:45:31,  1.88s/it]                                                           0%|          | 669/1500000 [31:30<782:45:31,  1.88s/it]{'loss': 2.2027, 'grad_norm': 10.058109283447266, 'learning_rate': 1.334e-07, 'epoch': 669.0}
  0%|          | 670/1500000 [31:32<784:11:47,  1.88s/it]                                                           0%|          | 670/1500000 [31:32<784:11:47,  1.88s/it]{'loss': 2.194, 'grad_norm': 10.029885292053223, 'learning_rate': 1.336e-07, 'epoch': 670.0}
  0%|          | 671/1500000 [31:34<776:56:20,  1.87s/it]                                                           0%|          | 671/1500000 [31:34<776:56:20,  1.87s/it]{'loss': 2.1974, 'grad_norm': 9.922497749328613, 'learning_rate': 1.3380000000000002e-07, 'epoch': 671.0}
  0%|          | 672/1500000 [31:36<768:49:48,  1.85s/it]                                                           0%|          | 672/1500000 [31:36<768:49:48,  1.85s/it]{'loss': 2.1988, 'grad_norm': 9.991569519042969, 'learning_rate': 1.34e-07, 'epoch': 672.0}
  0%|          | 673/1500000 [31:38<797:42:50,  1.92s/it]                                                           0%|          | 673/1500000 [31:38<797:42:50,  1.92s/it]{'loss': 2.1837, 'grad_norm': 9.817657470703125, 'learning_rate': 1.342e-07, 'epoch': 673.0}
  0%|          | 674/1500000 [31:39<791:52:47,  1.90s/it]                                                           0%|          | 674/1500000 [31:40<791:52:47,  1.90s/it]{'loss': 2.1875, 'grad_norm': 10.058143615722656, 'learning_rate': 1.3439999999999999e-07, 'epoch': 674.0}
  0%|          | 675/1500000 [31:41<786:28:17,  1.89s/it]                                                           0%|          | 675/1500000 [31:41<786:28:17,  1.89s/it]{'loss': 2.1764, 'grad_norm': 9.87132740020752, 'learning_rate': 1.346e-07, 'epoch': 675.0}
  0%|          | 676/1500000 [31:43<780:41:48,  1.87s/it]                                                           0%|          | 676/1500000 [31:43<780:41:48,  1.87s/it]{'loss': 2.1807, 'grad_norm': 10.117828369140625, 'learning_rate': 1.3480000000000002e-07, 'epoch': 676.0}
  0%|          | 677/1500000 [31:45<775:41:57,  1.86s/it]                                                           0%|          | 677/1500000 [31:45<775:41:57,  1.86s/it]{'loss': 2.1758, 'grad_norm': 10.282687187194824, 'learning_rate': 1.35e-07, 'epoch': 677.0}
  0%|          | 678/1500000 [31:47<775:23:27,  1.86s/it]                                                           0%|          | 678/1500000 [31:47<775:23:27,  1.86s/it]{'loss': 2.1654, 'grad_norm': 9.738932609558105, 'learning_rate': 1.352e-07, 'epoch': 678.0}
  0%|          | 679/1500000 [31:49<767:47:53,  1.84s/it]                                                           0%|          | 679/1500000 [31:49<767:47:53,  1.84s/it]{'loss': 2.1619, 'grad_norm': 10.068257331848145, 'learning_rate': 1.354e-07, 'epoch': 679.0}
  0%|          | 680/1500000 [31:51<770:15:38,  1.85s/it]                                                           0%|          | 680/1500000 [31:51<770:15:38,  1.85s/it]{'loss': 2.1603, 'grad_norm': 9.95919132232666, 'learning_rate': 1.356e-07, 'epoch': 680.0}
  0%|          | 681/1500000 [31:52<778:10:42,  1.87s/it]                                                           0%|          | 681/1500000 [31:52<778:10:42,  1.87s/it]{'loss': 2.1561, 'grad_norm': 9.860638618469238, 'learning_rate': 1.358e-07, 'epoch': 681.0}
  0%|          | 682/1500000 [31:54<768:27:13,  1.85s/it]                                                           0%|          | 682/1500000 [31:54<768:27:13,  1.85s/it]{'loss': 2.154, 'grad_norm': 10.364665031433105, 'learning_rate': 1.36e-07, 'epoch': 682.0}
  0%|          | 683/1500000 [31:56<768:27:49,  1.85s/it]                                                           0%|          | 683/1500000 [31:56<768:27:49,  1.85s/it]{'loss': 2.156, 'grad_norm': 9.949203491210938, 'learning_rate': 1.362e-07, 'epoch': 683.0}
  0%|          | 684/1500000 [31:58<769:54:55,  1.85s/it]                                                           0%|          | 684/1500000 [31:58<769:54:55,  1.85s/it]{'loss': 2.1418, 'grad_norm': 9.861573219299316, 'learning_rate': 1.364e-07, 'epoch': 684.0}
  0%|          | 685/1500000 [32:00<799:32:44,  1.92s/it]                                                           0%|          | 685/1500000 [32:00<799:32:44,  1.92s/it]{'loss': 2.1504, 'grad_norm': 9.93878173828125, 'learning_rate': 1.3660000000000002e-07, 'epoch': 685.0}
  0%|          | 686/1500000 [32:02<819:21:47,  1.97s/it]                                                           0%|          | 686/1500000 [32:02<819:21:47,  1.97s/it]{'loss': 2.1435, 'grad_norm': 9.82422161102295, 'learning_rate': 1.368e-07, 'epoch': 686.0}
  0%|          | 687/1500000 [32:04<846:56:41,  2.03s/it]                                                           0%|          | 687/1500000 [32:04<846:56:41,  2.03s/it]{'loss': 2.1365, 'grad_norm': 10.159695625305176, 'learning_rate': 1.37e-07, 'epoch': 687.0}
  0%|          | 688/1500000 [32:06<838:25:03,  2.01s/it]                                                           0%|          | 688/1500000 [32:06<838:25:03,  2.01s/it]{'loss': 2.1295, 'grad_norm': 11.162751197814941, 'learning_rate': 1.372e-07, 'epoch': 688.0}
  0%|          | 689/1500000 [32:08<813:44:52,  1.95s/it]                                                           0%|          | 689/1500000 [32:08<813:44:52,  1.95s/it]{'loss': 2.1297, 'grad_norm': nan, 'learning_rate': 1.372e-07, 'epoch': 689.0}
  0%|          | 690/1500000 [32:10<802:03:28,  1.93s/it]                                                           0%|          | 690/1500000 [32:10<802:03:28,  1.93s/it]{'loss': 2.1189, 'grad_norm': 10.371438980102539, 'learning_rate': 1.374e-07, 'epoch': 690.0}
  0%|          | 691/1500000 [32:12<804:22:27,  1.93s/it]                                                           0%|          | 691/1500000 [32:12<804:22:27,  1.93s/it]{'loss': 2.1115, 'grad_norm': 10.219332695007324, 'learning_rate': 1.3760000000000001e-07, 'epoch': 691.0}
  0%|          | 692/1500000 [32:14<793:34:23,  1.91s/it]                                                           0%|          | 692/1500000 [32:14<793:34:23,  1.91s/it]{'loss': 2.1197, 'grad_norm': 9.924764633178711, 'learning_rate': 1.378e-07, 'epoch': 692.0}
  0%|          | 693/1500000 [32:16<796:36:01,  1.91s/it]                                                           0%|          | 693/1500000 [32:16<796:36:01,  1.91s/it]{'loss': 2.1048, 'grad_norm': 9.929622650146484, 'learning_rate': 1.38e-07, 'epoch': 693.0}
  0%|          | 694/1500000 [32:18<818:10:28,  1.96s/it]                                                           0%|          | 694/1500000 [32:18<818:10:28,  1.96s/it]{'loss': 2.1109, 'grad_norm': 10.572287559509277, 'learning_rate': 1.382e-07, 'epoch': 694.0}
  0%|          | 695/1500000 [32:20<832:21:52,  2.00s/it]                                                           0%|          | 695/1500000 [32:20<832:21:52,  2.00s/it]{'loss': 2.12, 'grad_norm': 10.042339324951172, 'learning_rate': 1.384e-07, 'epoch': 695.0}
  0%|          | 696/1500000 [32:22<816:22:58,  1.96s/it]                                                           0%|          | 696/1500000 [32:22<816:22:58,  1.96s/it]{'loss': 2.1104, 'grad_norm': 9.977663040161133, 'learning_rate': 1.386e-07, 'epoch': 696.0}
  0%|          | 697/1500000 [32:24<803:49:31,  1.93s/it]                                                           0%|          | 697/1500000 [32:24<803:49:31,  1.93s/it]{'loss': 2.1012, 'grad_norm': 9.891990661621094, 'learning_rate': 1.388e-07, 'epoch': 697.0}
  0%|          | 698/1500000 [32:26<825:48:03,  1.98s/it]                                                           0%|          | 698/1500000 [32:26<825:48:03,  1.98s/it]{'loss': 2.0905, 'grad_norm': 30.570873260498047, 'learning_rate': 1.39e-07, 'epoch': 698.0}
  0%|          | 699/1500000 [32:28<840:49:54,  2.02s/it]                                                           0%|          | 699/1500000 [32:28<840:49:54,  2.02s/it]{'loss': 2.0847, 'grad_norm': 10.623148918151855, 'learning_rate': 1.392e-07, 'epoch': 699.0}
  0%|          | 700/1500000 [32:30<818:50:52,  1.97s/it]                                                           0%|          | 700/1500000 [32:30<818:50:52,  1.97s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 2.0893, 'grad_norm': 10.232098579406738, 'learning_rate': 1.3940000000000002e-07, 'epoch': 700.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.21it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.11s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.19s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.40s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.56s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.17s/it][A                                                         
                                             [A  0%|          | 700/1500000 [33:14<818:50:52,  1.97s/it]
100%|██████████| 7/7 [00:09<00:00,  1.17s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-500] due to args.save_total_limit
{'eval_loss': 4.292191505432129, 'eval_wer': 0.9998853473973859, 'eval_cer': 0.9856569414529077, 'eval_runtime': 17.8108, 'eval_samples_per_second': 55.191, 'eval_steps_per_second': 0.393, 'epoch': 700.0}
  0%|          | 701/1500000 [33:33<8456:33:46, 20.31s/it]                                                            0%|          | 701/1500000 [33:33<8456:33:46, 20.31s/it]{'loss': 2.0968, 'grad_norm': 10.14167308807373, 'learning_rate': 1.396e-07, 'epoch': 701.0}
  0%|          | 702/1500000 [33:35<6236:57:33, 14.98s/it]                                                            0%|          | 702/1500000 [33:35<6236:57:33, 14.98s/it]{'loss': 2.071, 'grad_norm': 10.072504043579102, 'learning_rate': 1.398e-07, 'epoch': 702.0}
  0%|          | 703/1500000 [33:38<4711:50:38, 11.31s/it]                                                            0%|          | 703/1500000 [33:38<4711:50:38, 11.31s/it]{'loss': 2.0794, 'grad_norm': 10.08941650390625, 'learning_rate': 1.4e-07, 'epoch': 703.0}
  0%|          | 704/1500000 [33:41<3662:13:03,  8.79s/it]                                                            0%|          | 704/1500000 [33:41<3662:13:03,  8.79s/it]{'loss': 2.0793, 'grad_norm': 10.088103294372559, 'learning_rate': 1.402e-07, 'epoch': 704.0}
  0%|          | 705/1500000 [33:44<2892:00:50,  6.94s/it]                                                            0%|          | 705/1500000 [33:44<2892:00:50,  6.94s/it]{'loss': 2.0702, 'grad_norm': 9.838387489318848, 'learning_rate': 1.404e-07, 'epoch': 705.0}
  0%|          | 706/1500000 [33:46<2339:11:50,  5.62s/it]                                                            0%|          | 706/1500000 [33:46<2339:11:50,  5.62s/it]{'loss': 2.0698, 'grad_norm': 9.900153160095215, 'learning_rate': 1.406e-07, 'epoch': 706.0}
  0%|          | 707/1500000 [33:49<1993:04:48,  4.79s/it]                                                            0%|          | 707/1500000 [33:49<1993:04:48,  4.79s/it]{'loss': 2.0488, 'grad_norm': 9.789011001586914, 'learning_rate': 1.408e-07, 'epoch': 707.0}
  0%|          | 708/1500000 [33:52<1758:10:29,  4.22s/it]                                                            0%|          | 708/1500000 [33:52<1758:10:29,  4.22s/it]{'loss': 2.0575, 'grad_norm': 12.434452056884766, 'learning_rate': 1.41e-07, 'epoch': 708.0}
  0%|          | 709/1500000 [33:54<1553:52:04,  3.73s/it]                                                            0%|          | 709/1500000 [33:54<1553:52:04,  3.73s/it]{'loss': 2.0561, 'grad_norm': 9.903465270996094, 'learning_rate': 1.412e-07, 'epoch': 709.0}
  0%|          | 710/1500000 [33:57<1415:18:34,  3.40s/it]                                                            0%|          | 710/1500000 [33:57<1415:18:34,  3.40s/it]{'loss': 2.0508, 'grad_norm': 9.817137718200684, 'learning_rate': 1.414e-07, 'epoch': 710.0}
  0%|          | 711/1500000 [34:00<1309:47:45,  3.15s/it]                                                            0%|          | 711/1500000 [34:00<1309:47:45,  3.15s/it]{'loss': 2.0397, 'grad_norm': 9.81320858001709, 'learning_rate': 1.4160000000000002e-07, 'epoch': 711.0}
  0%|          | 712/1500000 [34:02<1232:36:42,  2.96s/it]                                                            0%|          | 712/1500000 [34:02<1232:36:42,  2.96s/it]{'loss': 2.0344, 'grad_norm': 10.22770881652832, 'learning_rate': 1.4179999999999999e-07, 'epoch': 712.0}
  0%|          | 713/1500000 [34:05<1190:16:30,  2.86s/it]                                                            0%|          | 713/1500000 [34:05<1190:16:30,  2.86s/it]{'loss': 2.0313, 'grad_norm': 9.688031196594238, 'learning_rate': 1.42e-07, 'epoch': 713.0}
  0%|          | 714/1500000 [34:08<1189:51:41,  2.86s/it]                                                            0%|          | 714/1500000 [34:08<1189:51:41,  2.86s/it]{'loss': 2.0347, 'grad_norm': 9.904077529907227, 'learning_rate': 1.4220000000000002e-07, 'epoch': 714.0}
  0%|          | 715/1500000 [34:10<1181:50:38,  2.84s/it]                                                            0%|          | 715/1500000 [34:10<1181:50:38,  2.84s/it]{'loss': 2.0311, 'grad_norm': 9.889161109924316, 'learning_rate': 1.424e-07, 'epoch': 715.0}
  0%|          | 716/1500000 [34:13<1179:29:47,  2.83s/it]                                                            0%|          | 716/1500000 [34:13<1179:29:47,  2.83s/it]{'loss': 2.0234, 'grad_norm': 9.783183097839355, 'learning_rate': 1.426e-07, 'epoch': 716.0}
  0%|          | 717/1500000 [34:16<1195:24:19,  2.87s/it]                                                            0%|          | 717/1500000 [34:16<1195:24:19,  2.87s/it]{'loss': 2.0125, 'grad_norm': 9.914502143859863, 'learning_rate': 1.428e-07, 'epoch': 717.0}
  0%|          | 718/1500000 [34:19<1156:24:08,  2.78s/it]                                                            0%|          | 718/1500000 [34:19<1156:24:08,  2.78s/it]{'loss': 2.0071, 'grad_norm': 10.01080322265625, 'learning_rate': 1.43e-07, 'epoch': 718.0}
  0%|          | 719/1500000 [34:22<1171:41:12,  2.81s/it]                                                            0%|          | 719/1500000 [34:22<1171:41:12,  2.81s/it]{'loss': 2.0107, 'grad_norm': 13.835756301879883, 'learning_rate': 1.432e-07, 'epoch': 719.0}
  0%|          | 720/1500000 [34:24<1138:55:17,  2.73s/it]                                                            0%|          | 720/1500000 [34:24<1138:55:17,  2.73s/it]{'loss': 1.9969, 'grad_norm': 9.779084205627441, 'learning_rate': 1.4340000000000003e-07, 'epoch': 720.0}
  0%|          | 721/1500000 [34:27<1176:05:19,  2.82s/it]                                                            0%|          | 721/1500000 [34:27<1176:05:19,  2.82s/it]{'loss': 1.9968, 'grad_norm': 9.24559211730957, 'learning_rate': 1.436e-07, 'epoch': 721.0}
  0%|          | 722/1500000 [34:30<1136:33:46,  2.73s/it]                                                            0%|          | 722/1500000 [34:30<1136:33:46,  2.73s/it]{'loss': 1.992, 'grad_norm': 9.303250312805176, 'learning_rate': 1.438e-07, 'epoch': 722.0}
  0%|          | 723/1500000 [34:32<1119:38:14,  2.69s/it]                                                            0%|          | 723/1500000 [34:32<1119:38:14,  2.69s/it]{'loss': 1.9946, 'grad_norm': 9.240724563598633, 'learning_rate': 1.44e-07, 'epoch': 723.0}
  0%|          | 724/1500000 [34:35<1096:22:54,  2.63s/it]                                                            0%|          | 724/1500000 [34:35<1096:22:54,  2.63s/it]{'loss': 1.9899, 'grad_norm': 9.275218963623047, 'learning_rate': 1.442e-07, 'epoch': 724.0}
  0%|          | 725/1500000 [34:38<1124:28:09,  2.70s/it]                                                            0%|          | 725/1500000 [34:38<1124:28:09,  2.70s/it]{'loss': 1.9762, 'grad_norm': 8.94128131866455, 'learning_rate': 1.4440000000000002e-07, 'epoch': 725.0}
  0%|          | 726/1500000 [34:40<1140:56:22,  2.74s/it]                                                            0%|          | 726/1500000 [34:41<1140:56:22,  2.74s/it]{'loss': 1.9762, 'grad_norm': 8.984925270080566, 'learning_rate': 1.4459999999999998e-07, 'epoch': 726.0}
  0%|          | 727/1500000 [34:43<1155:49:48,  2.78s/it]                                                            0%|          | 727/1500000 [34:43<1155:49:48,  2.78s/it]{'loss': 1.9768, 'grad_norm': 9.033624649047852, 'learning_rate': 1.448e-07, 'epoch': 727.0}
  0%|          | 728/1500000 [34:46<1163:16:12,  2.79s/it]                                                            0%|          | 728/1500000 [34:46<1163:16:12,  2.79s/it]{'loss': 1.9724, 'grad_norm': 8.85219669342041, 'learning_rate': 1.4500000000000001e-07, 'epoch': 728.0}
  0%|          | 729/1500000 [34:49<1144:42:59,  2.75s/it]                                                            0%|          | 729/1500000 [34:49<1144:42:59,  2.75s/it]{'loss': 1.9634, 'grad_norm': 8.837510108947754, 'learning_rate': 1.452e-07, 'epoch': 729.0}
  0%|          | 730/1500000 [34:51<1115:30:15,  2.68s/it]                                                            0%|          | 730/1500000 [34:51<1115:30:15,  2.68s/it]{'loss': 1.9724, 'grad_norm': 9.478222846984863, 'learning_rate': 1.454e-07, 'epoch': 730.0}
  0%|          | 731/1500000 [34:54<1095:48:27,  2.63s/it]                                                            0%|          | 731/1500000 [34:54<1095:48:27,  2.63s/it]{'loss': 1.9748, 'grad_norm': 8.947112083435059, 'learning_rate': 1.456e-07, 'epoch': 731.0}
  0%|          | 732/1500000 [34:56<1084:20:50,  2.60s/it]                                                            0%|          | 732/1500000 [34:56<1084:20:50,  2.60s/it]{'loss': 1.9625, 'grad_norm': 8.500423431396484, 'learning_rate': 1.458e-07, 'epoch': 732.0}
  0%|          | 733/1500000 [34:59<1107:32:14,  2.66s/it]                                                            0%|          | 733/1500000 [34:59<1107:32:14,  2.66s/it]{'loss': 1.96, 'grad_norm': 10.01471996307373, 'learning_rate': 1.46e-07, 'epoch': 733.0}
  0%|          | 734/1500000 [35:02<1091:43:33,  2.62s/it]                                                            0%|          | 734/1500000 [35:02<1091:43:33,  2.62s/it]{'loss': 1.9486, 'grad_norm': 8.080663681030273, 'learning_rate': 1.4620000000000003e-07, 'epoch': 734.0}
  0%|          | 735/1500000 [35:05<1121:36:57,  2.69s/it]                                                            0%|          | 735/1500000 [35:05<1121:36:57,  2.69s/it]{'loss': 1.9531, 'grad_norm': 8.352712631225586, 'learning_rate': 1.464e-07, 'epoch': 735.0}
  0%|          | 736/1500000 [35:07<1103:20:21,  2.65s/it]                                                            0%|          | 736/1500000 [35:07<1103:20:21,  2.65s/it]{'loss': 1.9403, 'grad_norm': 8.029537200927734, 'learning_rate': 1.466e-07, 'epoch': 736.0}
  0%|          | 737/1500000 [35:10<1119:47:52,  2.69s/it]                                                            0%|          | 737/1500000 [35:10<1119:47:52,  2.69s/it]{'loss': 1.9429, 'grad_norm': 8.284768104553223, 'learning_rate': 1.4680000000000002e-07, 'epoch': 737.0}
  0%|          | 738/1500000 [35:13<1135:39:36,  2.73s/it]                                                            0%|          | 738/1500000 [35:13<1135:39:36,  2.73s/it]{'loss': 1.934, 'grad_norm': 7.73977518081665, 'learning_rate': 1.47e-07, 'epoch': 738.0}
  0%|          | 739/1500000 [35:16<1150:54:43,  2.76s/it]                                                            0%|          | 739/1500000 [35:16<1150:54:43,  2.76s/it]{'loss': 1.9276, 'grad_norm': 9.544439315795898, 'learning_rate': 1.4720000000000002e-07, 'epoch': 739.0}
  0%|          | 740/1500000 [35:18<1109:25:01,  2.66s/it]                                                            0%|          | 740/1500000 [35:18<1109:25:01,  2.66s/it]{'loss': 1.9235, 'grad_norm': 7.615954399108887, 'learning_rate': 1.4739999999999998e-07, 'epoch': 740.0}
  0%|          | 741/1500000 [35:21<1098:28:55,  2.64s/it]                                                            0%|          | 741/1500000 [35:21<1098:28:55,  2.64s/it]{'loss': 1.9291, 'grad_norm': 7.588869571685791, 'learning_rate': 1.476e-07, 'epoch': 741.0}
  0%|          | 742/1500000 [35:23<1077:31:28,  2.59s/it]                                                            0%|          | 742/1500000 [35:23<1077:31:28,  2.59s/it]{'loss': 1.9126, 'grad_norm': 7.259559631347656, 'learning_rate': 1.478e-07, 'epoch': 742.0}
  0%|          | 743/1500000 [35:26<1079:33:18,  2.59s/it]                                                            0%|          | 743/1500000 [35:26<1079:33:18,  2.59s/it]{'loss': 1.924, 'grad_norm': 7.334859371185303, 'learning_rate': 1.48e-07, 'epoch': 743.0}
  0%|          | 744/1500000 [35:28<1083:43:31,  2.60s/it]                                                            0%|          | 744/1500000 [35:28<1083:43:31,  2.60s/it]{'loss': 1.9116, 'grad_norm': 7.163017272949219, 'learning_rate': 1.482e-07, 'epoch': 744.0}
  0%|          | 745/1500000 [35:31<1119:13:18,  2.69s/it]                                                            0%|          | 745/1500000 [35:31<1119:13:18,  2.69s/it]{'loss': 1.9083, 'grad_norm': 10.225530624389648, 'learning_rate': 1.484e-07, 'epoch': 745.0}
  0%|          | 746/1500000 [35:34<1102:51:43,  2.65s/it]                                                            0%|          | 746/1500000 [35:34<1102:51:43,  2.65s/it]{'loss': 1.9092, 'grad_norm': 6.566420078277588, 'learning_rate': 1.486e-07, 'epoch': 746.0}
  0%|          | 747/1500000 [35:36<1092:43:08,  2.62s/it]                                                            0%|          | 747/1500000 [35:36<1092:43:08,  2.62s/it]{'loss': 1.9035, 'grad_norm': 6.422393798828125, 'learning_rate': 1.488e-07, 'epoch': 747.0}
  0%|          | 748/1500000 [35:39<1082:16:53,  2.60s/it]                                                            0%|          | 748/1500000 [35:39<1082:16:53,  2.60s/it]{'loss': 1.8969, 'grad_norm': 6.732040882110596, 'learning_rate': 1.4900000000000002e-07, 'epoch': 748.0}
  0%|          | 749/1500000 [35:41<1078:52:42,  2.59s/it]                                                            0%|          | 749/1500000 [35:41<1078:52:42,  2.59s/it]{'loss': 1.9099, 'grad_norm': 6.50321102142334, 'learning_rate': 1.4919999999999999e-07, 'epoch': 749.0}
  0%|          | 750/1500000 [35:44<1077:37:34,  2.59s/it]                                                            0%|          | 750/1500000 [35:44<1077:37:34,  2.59s/it]{'loss': 1.8907, 'grad_norm': 7.094026565551758, 'learning_rate': 1.494e-07, 'epoch': 750.0}
  0%|          | 751/1500000 [35:47<1074:50:32,  2.58s/it]                                                            0%|          | 751/1500000 [35:47<1074:50:32,  2.58s/it]{'loss': 1.8853, 'grad_norm': 5.968066215515137, 'learning_rate': 1.4960000000000002e-07, 'epoch': 751.0}
  0%|          | 752/1500000 [35:49<1073:21:58,  2.58s/it]                                                            0%|          | 752/1500000 [35:49<1073:21:58,  2.58s/it]{'loss': 1.8861, 'grad_norm': 5.9561357498168945, 'learning_rate': 1.498e-07, 'epoch': 752.0}
  0%|          | 753/1500000 [35:52<1079:42:49,  2.59s/it]                                                            0%|          | 753/1500000 [35:52<1079:42:49,  2.59s/it]{'loss': 1.8799, 'grad_norm': 5.52468729019165, 'learning_rate': 1.5000000000000002e-07, 'epoch': 753.0}
  0%|          | 754/1500000 [35:54<1081:18:50,  2.60s/it]                                                            0%|          | 754/1500000 [35:54<1081:18:50,  2.60s/it]{'loss': 1.8857, 'grad_norm': 6.219741344451904, 'learning_rate': 1.502e-07, 'epoch': 754.0}
  0%|          | 755/1500000 [35:57<1073:56:19,  2.58s/it]                                                            0%|          | 755/1500000 [35:57<1073:56:19,  2.58s/it]{'loss': 1.882, 'grad_norm': 6.635228157043457, 'learning_rate': 1.504e-07, 'epoch': 755.0}
  0%|          | 756/1500000 [36:00<1090:13:46,  2.62s/it]                                                            0%|          | 756/1500000 [36:00<1090:13:46,  2.62s/it]{'loss': 1.8766, 'grad_norm': 5.40131950378418, 'learning_rate': 1.506e-07, 'epoch': 756.0}
  0%|          | 757/1500000 [36:02<1088:25:47,  2.61s/it]                                                            0%|          | 757/1500000 [36:02<1088:25:47,  2.61s/it]{'loss': 1.8736, 'grad_norm': 5.228001594543457, 'learning_rate': 1.508e-07, 'epoch': 757.0}
  0%|          | 758/1500000 [36:05<1124:31:15,  2.70s/it]                                                            0%|          | 758/1500000 [36:05<1124:31:15,  2.70s/it]{'loss': 1.8848, 'grad_norm': 4.974438667297363, 'learning_rate': 1.51e-07, 'epoch': 758.0}
  0%|          | 759/1500000 [36:08<1114:35:42,  2.68s/it]                                                            0%|          | 759/1500000 [36:08<1114:35:42,  2.68s/it]{'loss': 1.8644, 'grad_norm': 5.368557929992676, 'learning_rate': 1.512e-07, 'epoch': 759.0}
  0%|          | 760/1500000 [36:10<1101:20:02,  2.64s/it]                                                            0%|          | 760/1500000 [36:10<1101:20:02,  2.64s/it]{'loss': 1.8809, 'grad_norm': 4.786446571350098, 'learning_rate': 1.514e-07, 'epoch': 760.0}
  0%|          | 761/1500000 [36:13<1090:04:48,  2.62s/it]                                                            0%|          | 761/1500000 [36:13<1090:04:48,  2.62s/it]{'loss': 1.8632, 'grad_norm': 4.269495964050293, 'learning_rate': 1.516e-07, 'epoch': 761.0}
  0%|          | 762/1500000 [36:15<1083:16:39,  2.60s/it]                                                            0%|          | 762/1500000 [36:15<1083:16:39,  2.60s/it]{'loss': 1.8688, 'grad_norm': 4.438037872314453, 'learning_rate': 1.5180000000000002e-07, 'epoch': 762.0}
  0%|          | 763/1500000 [36:18<1081:52:08,  2.60s/it]                                                            0%|          | 763/1500000 [36:18<1081:52:08,  2.60s/it]{'loss': 1.8489, 'grad_norm': 3.811453342437744, 'learning_rate': 1.5199999999999998e-07, 'epoch': 763.0}
  0%|          | 764/1500000 [36:21<1082:59:23,  2.60s/it]                                                            0%|          | 764/1500000 [36:21<1082:59:23,  2.60s/it]{'loss': 1.8593, 'grad_norm': 4.027569770812988, 'learning_rate': 1.522e-07, 'epoch': 764.0}
  0%|          | 765/1500000 [36:23<1116:04:23,  2.68s/it]                                                            0%|          | 765/1500000 [36:23<1116:04:23,  2.68s/it]{'loss': 1.8508, 'grad_norm': 5.789031982421875, 'learning_rate': 1.5240000000000001e-07, 'epoch': 765.0}
  0%|          | 766/1500000 [36:26<1105:54:06,  2.66s/it]                                                            0%|          | 766/1500000 [36:26<1105:54:06,  2.66s/it]{'loss': 1.8471, 'grad_norm': 3.701258420944214, 'learning_rate': 1.526e-07, 'epoch': 766.0}
  0%|          | 767/1500000 [36:29<1092:49:31,  2.62s/it]                                                            0%|          | 767/1500000 [36:29<1092:49:31,  2.62s/it]{'loss': 1.8534, 'grad_norm': 3.6368439197540283, 'learning_rate': 1.5280000000000002e-07, 'epoch': 767.0}
  0%|          | 768/1500000 [36:31<1078:00:44,  2.59s/it]                                                            0%|          | 768/1500000 [36:31<1078:00:44,  2.59s/it]{'loss': 1.8494, 'grad_norm': 3.3335561752319336, 'learning_rate': 1.53e-07, 'epoch': 768.0}
  0%|          | 769/1500000 [36:34<1076:52:19,  2.59s/it]                                                            0%|          | 769/1500000 [36:34<1076:52:19,  2.59s/it]{'loss': 1.8461, 'grad_norm': 3.1218442916870117, 'learning_rate': 1.532e-07, 'epoch': 769.0}
  0%|          | 770/1500000 [36:36<1072:05:40,  2.57s/it]                                                            0%|          | 770/1500000 [36:36<1072:05:40,  2.57s/it]{'loss': 1.8455, 'grad_norm': 3.4252374172210693, 'learning_rate': 1.534e-07, 'epoch': 770.0}
  0%|          | 771/1500000 [36:39<1087:20:19,  2.61s/it]                                                            0%|          | 771/1500000 [36:39<1087:20:19,  2.61s/it]{'loss': 1.8461, 'grad_norm': 3.0697431564331055, 'learning_rate': 1.5360000000000003e-07, 'epoch': 771.0}
  0%|          | 772/1500000 [36:42<1082:06:04,  2.60s/it]                                                            0%|          | 772/1500000 [36:42<1082:06:04,  2.60s/it]{'loss': 1.838, 'grad_norm': 2.8602631092071533, 'learning_rate': 1.538e-07, 'epoch': 772.0}
  0%|          | 773/1500000 [36:44<1103:27:17,  2.65s/it]                                                            0%|          | 773/1500000 [36:44<1103:27:17,  2.65s/it]{'loss': 1.8474, 'grad_norm': 3.2047159671783447, 'learning_rate': 1.54e-07, 'epoch': 773.0}
  0%|          | 774/1500000 [36:47<1128:45:25,  2.71s/it]                                                            0%|          | 774/1500000 [36:47<1128:45:25,  2.71s/it]{'loss': 1.8395, 'grad_norm': 3.7892396450042725, 'learning_rate': 1.542e-07, 'epoch': 774.0}
  0%|          | 775/1500000 [36:50<1111:28:04,  2.67s/it]                                                            0%|          | 775/1500000 [36:50<1111:28:04,  2.67s/it]{'loss': 1.8392, 'grad_norm': 7.265025615692139, 'learning_rate': 1.544e-07, 'epoch': 775.0}
  0%|          | 776/1500000 [36:53<1129:13:14,  2.71s/it]                                                            0%|          | 776/1500000 [36:53<1129:13:14,  2.71s/it]{'loss': 1.8346, 'grad_norm': 4.476862907409668, 'learning_rate': 1.5460000000000002e-07, 'epoch': 776.0}
  0%|          | 777/1500000 [36:55<1115:05:09,  2.68s/it]                                                            0%|          | 777/1500000 [36:55<1115:05:09,  2.68s/it]{'loss': 1.8329, 'grad_norm': 3.3169314861297607, 'learning_rate': 1.5479999999999998e-07, 'epoch': 777.0}
  0%|          | 778/1500000 [36:58<1105:36:41,  2.65s/it]                                                            0%|          | 778/1500000 [36:58<1105:36:41,  2.65s/it]{'loss': 1.8369, 'grad_norm': 2.590163230895996, 'learning_rate': 1.55e-07, 'epoch': 778.0}
  0%|          | 779/1500000 [37:00<1093:21:26,  2.63s/it]                                                            0%|          | 779/1500000 [37:00<1093:21:26,  2.63s/it]{'loss': 1.8292, 'grad_norm': 2.6530752182006836, 'learning_rate': 1.5520000000000001e-07, 'epoch': 779.0}
  0%|          | 780/1500000 [37:03<1123:25:38,  2.70s/it]                                                            0%|          | 780/1500000 [37:03<1123:25:38,  2.70s/it]{'loss': 1.8303, 'grad_norm': 3.0095651149749756, 'learning_rate': 1.554e-07, 'epoch': 780.0}
  0%|          | 781/1500000 [37:06<1148:02:33,  2.76s/it]                                                            0%|          | 781/1500000 [37:06<1148:02:33,  2.76s/it]{'loss': 1.823, 'grad_norm': 2.451577663421631, 'learning_rate': 1.5560000000000002e-07, 'epoch': 781.0}
  0%|          | 782/1500000 [37:09<1135:54:38,  2.73s/it]                                                            0%|          | 782/1500000 [37:09<1135:54:38,  2.73s/it]{'loss': 1.8262, 'grad_norm': 2.4160404205322266, 'learning_rate': 1.558e-07, 'epoch': 782.0}
  0%|          | 783/1500000 [37:12<1170:17:07,  2.81s/it]                                                            0%|          | 783/1500000 [37:12<1170:17:07,  2.81s/it]{'loss': 1.8261, 'grad_norm': 2.314107656478882, 'learning_rate': 1.56e-07, 'epoch': 783.0}
  0%|          | 784/1500000 [37:15<1189:04:14,  2.86s/it]                                                            0%|          | 784/1500000 [37:15<1189:04:14,  2.86s/it]{'loss': 1.828, 'grad_norm': 3.327643394470215, 'learning_rate': 1.562e-07, 'epoch': 784.0}
  0%|          | 785/1500000 [37:17<1159:33:28,  2.78s/it]                                                            0%|          | 785/1500000 [37:17<1159:33:28,  2.78s/it]{'loss': 1.8312, 'grad_norm': 5.704044342041016, 'learning_rate': 1.5640000000000002e-07, 'epoch': 785.0}
  0%|          | 786/1500000 [37:20<1170:52:49,  2.81s/it]                                                            0%|          | 786/1500000 [37:20<1170:52:49,  2.81s/it]{'loss': 1.819, 'grad_norm': 2.272397041320801, 'learning_rate': 1.5659999999999999e-07, 'epoch': 786.0}
  0%|          | 787/1500000 [37:23<1146:09:57,  2.75s/it]                                                            0%|          | 787/1500000 [37:23<1146:09:57,  2.75s/it]{'loss': 1.8155, 'grad_norm': 2.591296672821045, 'learning_rate': 1.568e-07, 'epoch': 787.0}
  0%|          | 788/1500000 [37:25<1128:35:46,  2.71s/it]                                                            0%|          | 788/1500000 [37:25<1128:35:46,  2.71s/it]{'loss': 1.8172, 'grad_norm': 2.452650785446167, 'learning_rate': 1.5700000000000002e-07, 'epoch': 788.0}
  0%|          | 789/1500000 [37:28<1145:38:31,  2.75s/it]                                                            0%|          | 789/1500000 [37:28<1145:38:31,  2.75s/it]{'loss': 1.8323, 'grad_norm': 2.5335299968719482, 'learning_rate': 1.572e-07, 'epoch': 789.0}
  0%|          | 790/1500000 [37:31<1122:30:17,  2.70s/it]                                                            0%|          | 790/1500000 [37:31<1122:30:17,  2.70s/it]{'loss': 1.8287, 'grad_norm': 2.514995813369751, 'learning_rate': 1.5740000000000002e-07, 'epoch': 790.0}
  0%|          | 791/1500000 [37:33<1092:40:46,  2.62s/it]                                                            0%|          | 791/1500000 [37:33<1092:40:46,  2.62s/it]{'loss': 1.8199, 'grad_norm': 2.2011115550994873, 'learning_rate': 1.5759999999999998e-07, 'epoch': 791.0}
  0%|          | 792/1500000 [37:36<1091:14:59,  2.62s/it]                                                            0%|          | 792/1500000 [37:36<1091:14:59,  2.62s/it]{'loss': 1.8197, 'grad_norm': 2.2072560787200928, 'learning_rate': 1.578e-07, 'epoch': 792.0}
  0%|          | 793/1500000 [37:39<1098:24:55,  2.64s/it]                                                            0%|          | 793/1500000 [37:39<1098:24:55,  2.64s/it]{'loss': 1.8114, 'grad_norm': 2.220309257507324, 'learning_rate': 1.58e-07, 'epoch': 793.0}
  0%|          | 794/1500000 [37:41<1126:37:39,  2.71s/it]                                                            0%|          | 794/1500000 [37:41<1126:37:39,  2.71s/it]{'loss': 1.8044, 'grad_norm': 9.763673782348633, 'learning_rate': 1.582e-07, 'epoch': 794.0}
  0%|          | 795/1500000 [37:44<1124:49:57,  2.70s/it]                                                            0%|          | 795/1500000 [37:44<1124:49:57,  2.70s/it]{'loss': 1.8103, 'grad_norm': 2.2385473251342773, 'learning_rate': 1.5840000000000002e-07, 'epoch': 795.0}
  0%|          | 796/1500000 [37:47<1119:46:03,  2.69s/it]                                                            0%|          | 796/1500000 [37:47<1119:46:03,  2.69s/it]{'loss': 1.8063, 'grad_norm': 2.7738656997680664, 'learning_rate': 1.586e-07, 'epoch': 796.0}
  0%|          | 797/1500000 [37:50<1141:48:41,  2.74s/it]                                                            0%|          | 797/1500000 [37:50<1141:48:41,  2.74s/it]{'loss': 1.8051, 'grad_norm': 2.3647520542144775, 'learning_rate': 1.588e-07, 'epoch': 797.0}
  0%|          | 798/1500000 [37:52<1116:03:32,  2.68s/it]                                                            0%|          | 798/1500000 [37:52<1116:03:32,  2.68s/it]{'loss': 1.8043, 'grad_norm': 2.439180612564087, 'learning_rate': 1.59e-07, 'epoch': 798.0}
  0%|          | 799/1500000 [37:55<1100:28:47,  2.64s/it]                                                            0%|          | 799/1500000 [37:55<1100:28:47,  2.64s/it]{'loss': 1.8009, 'grad_norm': 2.1225180625915527, 'learning_rate': 1.5920000000000002e-07, 'epoch': 799.0}
  0%|          | 800/1500000 [37:57<1092:08:54,  2.62s/it]                                                            0%|          | 800/1500000 [37:57<1092:08:54,  2.62s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.7985, 'grad_norm': 2.2563891410827637, 'learning_rate': 1.5939999999999998e-07, 'epoch': 800.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.57it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.17s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.25s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.44s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.46s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A                                                          
                                             [A  0%|          | 800/1500000 [38:39<1092:08:54,  2.62s/it]
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-600] due to args.save_total_limit
{'eval_loss': 3.6645617485046387, 'eval_wer': 1.0, 'eval_cer': 0.9998776189543763, 'eval_runtime': 14.9386, 'eval_samples_per_second': 65.803, 'eval_steps_per_second': 0.469, 'epoch': 800.0}
  0%|          | 801/1500000 [38:52<7635:50:34, 18.34s/it]                                                            0%|          | 801/1500000 [38:52<7635:50:34, 18.34s/it]{'loss': 1.8005, 'grad_norm': 2.173330068588257, 'learning_rate': 1.596e-07, 'epoch': 801.0}
  0%|          | 802/1500000 [38:55<5695:27:19, 13.68s/it]                                                            0%|          | 802/1500000 [38:55<5695:27:19, 13.68s/it]{'loss': 1.7982, 'grad_norm': 2.083827018737793, 'learning_rate': 1.5980000000000001e-07, 'epoch': 802.0}
  0%|          | 803/1500000 [38:58<4310:32:31, 10.35s/it]                                                            0%|          | 803/1500000 [38:58<4310:32:31, 10.35s/it]{'loss': 1.796, 'grad_norm': 4.566394329071045, 'learning_rate': 1.6e-07, 'epoch': 803.0}
  0%|          | 804/1500000 [39:00<3343:21:06,  8.03s/it]                                                            0%|          | 804/1500000 [39:00<3343:21:06,  8.03s/it]{'loss': 1.7979, 'grad_norm': 2.7209320068359375, 'learning_rate': 1.6020000000000002e-07, 'epoch': 804.0}
  0%|          | 805/1500000 [39:03<2699:16:18,  6.48s/it]                                                            0%|          | 805/1500000 [39:03<2699:16:18,  6.48s/it]{'loss': 1.7902, 'grad_norm': 2.082122325897217, 'learning_rate': 1.6039999999999998e-07, 'epoch': 805.0}
  0%|          | 806/1500000 [39:06<2214:43:26,  5.32s/it]                                                            0%|          | 806/1500000 [39:06<2214:43:26,  5.32s/it]{'loss': 1.7895, 'grad_norm': 2.5854358673095703, 'learning_rate': 1.606e-07, 'epoch': 806.0}
  0%|          | 807/1500000 [39:09<1908:16:16,  4.58s/it]                                                            0%|          | 807/1500000 [39:09<1908:16:16,  4.58s/it]{'loss': 1.7919, 'grad_norm': 2.020598888397217, 'learning_rate': 1.608e-07, 'epoch': 807.0}
  0%|          | 808/1500000 [39:11<1657:43:20,  3.98s/it]                                                            0%|          | 808/1500000 [39:11<1657:43:20,  3.98s/it]{'loss': 1.7909, 'grad_norm': 2.2006449699401855, 'learning_rate': 1.61e-07, 'epoch': 808.0}
  0%|          | 809/1500000 [39:14<1482:36:09,  3.56s/it]                                                            0%|          | 809/1500000 [39:14<1482:36:09,  3.56s/it]{'loss': 1.7848, 'grad_norm': 5.929205894470215, 'learning_rate': 1.6120000000000001e-07, 'epoch': 809.0}
  0%|          | 810/1500000 [39:16<1368:48:21,  3.29s/it]                                                            0%|          | 810/1500000 [39:16<1368:48:21,  3.29s/it]{'loss': 1.7882, 'grad_norm': 2.306544780731201, 'learning_rate': 1.614e-07, 'epoch': 810.0}
  0%|          | 811/1500000 [39:19<1275:44:39,  3.06s/it]                                                            0%|          | 811/1500000 [39:19<1275:44:39,  3.06s/it]{'loss': 1.7873, 'grad_norm': 2.0214858055114746, 'learning_rate': 1.616e-07, 'epoch': 811.0}
  0%|          | 812/1500000 [39:22<1225:09:31,  2.94s/it]                                                            0%|          | 812/1500000 [39:22<1225:09:31,  2.94s/it]{'loss': 1.7838, 'grad_norm': 6.128431797027588, 'learning_rate': 1.618e-07, 'epoch': 812.0}
  0%|          | 813/1500000 [39:24<1183:26:58,  2.84s/it]                                                            0%|          | 813/1500000 [39:24<1183:26:58,  2.84s/it]{'loss': 1.783, 'grad_norm': 2.130078077316284, 'learning_rate': 1.6200000000000002e-07, 'epoch': 813.0}
  0%|          | 814/1500000 [39:27<1149:56:20,  2.76s/it]                                                            0%|          | 814/1500000 [39:27<1149:56:20,  2.76s/it]{'loss': 1.7806, 'grad_norm': 2.059177875518799, 'learning_rate': 1.6219999999999998e-07, 'epoch': 814.0}
  0%|          | 815/1500000 [39:29<1124:52:46,  2.70s/it]                                                            0%|          | 815/1500000 [39:29<1124:52:46,  2.70s/it]{'loss': 1.7766, 'grad_norm': 1.9316984415054321, 'learning_rate': 1.624e-07, 'epoch': 815.0}
  0%|          | 816/1500000 [39:32<1124:25:50,  2.70s/it]                                                            0%|          | 816/1500000 [39:32<1124:25:50,  2.70s/it]{'loss': 1.7784, 'grad_norm': 2.6755871772766113, 'learning_rate': 1.6260000000000001e-07, 'epoch': 816.0}
  0%|          | 817/1500000 [39:35<1113:08:20,  2.67s/it]                                                            0%|          | 817/1500000 [39:35<1113:08:20,  2.67s/it]{'loss': 1.7857, 'grad_norm': 2.2525830268859863, 'learning_rate': 1.628e-07, 'epoch': 817.0}
  0%|          | 818/1500000 [39:38<1128:53:55,  2.71s/it]                                                            0%|          | 818/1500000 [39:38<1128:53:55,  2.71s/it]{'loss': 1.7786, 'grad_norm': 2.2171523571014404, 'learning_rate': 1.6300000000000002e-07, 'epoch': 818.0}
  0%|          | 819/1500000 [39:40<1108:36:34,  2.66s/it]                                                            0%|          | 819/1500000 [39:40<1108:36:34,  2.66s/it]{'loss': 1.7884, 'grad_norm': 2.1882803440093994, 'learning_rate': 1.632e-07, 'epoch': 819.0}
  0%|          | 820/1500000 [39:43<1121:58:09,  2.69s/it]                                                            0%|          | 820/1500000 [39:43<1121:58:09,  2.69s/it]{'loss': 1.7765, 'grad_norm': 3.468249797821045, 'learning_rate': 1.634e-07, 'epoch': 820.0}
  0%|          | 821/1500000 [39:46<1124:45:41,  2.70s/it]                                                            0%|          | 821/1500000 [39:46<1124:45:41,  2.70s/it]{'loss': 1.7736, 'grad_norm': 1.8878791332244873, 'learning_rate': 1.636e-07, 'epoch': 821.0}
  0%|          | 822/1500000 [39:48<1146:28:07,  2.75s/it]                                                            0%|          | 822/1500000 [39:48<1146:28:07,  2.75s/it]{'loss': 1.7755, 'grad_norm': 1.9382736682891846, 'learning_rate': 1.638e-07, 'epoch': 822.0}
  0%|          | 823/1500000 [39:51<1124:25:49,  2.70s/it]                                                            0%|          | 823/1500000 [39:51<1124:25:49,  2.70s/it]{'loss': 1.7738, 'grad_norm': 6.419625759124756, 'learning_rate': 1.64e-07, 'epoch': 823.0}
  0%|          | 824/1500000 [39:54<1119:43:22,  2.69s/it]                                                            0%|          | 824/1500000 [39:54<1119:43:22,  2.69s/it]{'loss': 1.7658, 'grad_norm': 2.5786449909210205, 'learning_rate': 1.642e-07, 'epoch': 824.0}
  0%|          | 825/1500000 [39:56<1139:14:00,  2.74s/it]                                                            0%|          | 825/1500000 [39:57<1139:14:00,  2.74s/it]{'loss': 1.7788, 'grad_norm': 2.1147758960723877, 'learning_rate': 1.644e-07, 'epoch': 825.0}
  0%|          | 826/1500000 [39:59<1121:06:47,  2.69s/it]                                                            0%|          | 826/1500000 [39:59<1121:06:47,  2.69s/it]{'loss': 1.7685, 'grad_norm': 1.8611210584640503, 'learning_rate': 1.646e-07, 'epoch': 826.0}
  0%|          | 827/1500000 [40:02<1150:46:51,  2.76s/it]                                                            0%|          | 827/1500000 [40:02<1150:46:51,  2.76s/it]{'loss': 1.7647, 'grad_norm': 1.8837226629257202, 'learning_rate': 1.6480000000000002e-07, 'epoch': 827.0}
  0%|          | 828/1500000 [40:05<1128:52:24,  2.71s/it]                                                            0%|          | 828/1500000 [40:05<1128:52:24,  2.71s/it]{'loss': 1.7618, 'grad_norm': 1.8270245790481567, 'learning_rate': 1.6499999999999998e-07, 'epoch': 828.0}
  0%|          | 829/1500000 [40:07<1140:26:35,  2.74s/it]                                                            0%|          | 829/1500000 [40:07<1140:26:35,  2.74s/it]{'loss': 1.7641, 'grad_norm': 2.063939094543457, 'learning_rate': 1.652e-07, 'epoch': 829.0}
  0%|          | 830/1500000 [40:10<1149:45:20,  2.76s/it]                                                            0%|          | 830/1500000 [40:10<1149:45:20,  2.76s/it]{'loss': 1.7627, 'grad_norm': 9.536706924438477, 'learning_rate': 1.654e-07, 'epoch': 830.0}
  0%|          | 831/1500000 [40:13<1127:20:58,  2.71s/it]                                                            0%|          | 831/1500000 [40:13<1127:20:58,  2.71s/it]{'loss': 1.7609, 'grad_norm': 1.8535194396972656, 'learning_rate': 1.656e-07, 'epoch': 831.0}
  0%|          | 832/1500000 [40:15<1118:35:58,  2.69s/it]                                                            0%|          | 832/1500000 [40:15<1118:35:58,  2.69s/it]{'loss': 1.7633, 'grad_norm': 1.7906641960144043, 'learning_rate': 1.6580000000000002e-07, 'epoch': 832.0}
  0%|          | 833/1500000 [40:18<1100:43:43,  2.64s/it]                                                            0%|          | 833/1500000 [40:18<1100:43:43,  2.64s/it]{'loss': 1.7587, 'grad_norm': 1.9473180770874023, 'learning_rate': 1.66e-07, 'epoch': 833.0}
  0%|          | 834/1500000 [40:21<1104:44:34,  2.65s/it]                                                            0%|          | 834/1500000 [40:21<1104:44:34,  2.65s/it]{'loss': 1.7636, 'grad_norm': 1.8110023736953735, 'learning_rate': 1.662e-07, 'epoch': 834.0}
  0%|          | 835/1500000 [40:23<1096:28:41,  2.63s/it]                                                            0%|          | 835/1500000 [40:23<1096:28:41,  2.63s/it]{'loss': 1.7619, 'grad_norm': 2.5523107051849365, 'learning_rate': 1.664e-07, 'epoch': 835.0}
  0%|          | 836/1500000 [40:26<1098:01:09,  2.64s/it]                                                            0%|          | 836/1500000 [40:26<1098:01:09,  2.64s/it]{'loss': 1.7521, 'grad_norm': 1.7652928829193115, 'learning_rate': 1.6660000000000002e-07, 'epoch': 836.0}
  0%|          | 837/1500000 [40:28<1084:51:34,  2.61s/it]                                                            0%|          | 837/1500000 [40:28<1084:51:34,  2.61s/it]{'loss': 1.7566, 'grad_norm': 2.1164135932922363, 'learning_rate': 1.668e-07, 'epoch': 837.0}
  0%|          | 838/1500000 [40:31<1092:22:34,  2.62s/it]                                                            0%|          | 838/1500000 [40:31<1092:22:34,  2.62s/it]{'loss': 1.7507, 'grad_norm': 1.8124005794525146, 'learning_rate': 1.67e-07, 'epoch': 838.0}
  0%|          | 839/1500000 [40:34<1089:15:01,  2.62s/it]                                                            0%|          | 839/1500000 [40:34<1089:15:01,  2.62s/it]{'loss': 1.7512, 'grad_norm': 3.930635452270508, 'learning_rate': 1.672e-07, 'epoch': 839.0}
  0%|          | 840/1500000 [40:36<1094:04:56,  2.63s/it]                                                            0%|          | 840/1500000 [40:36<1094:04:56,  2.63s/it]{'loss': 1.7444, 'grad_norm': 1.7234101295471191, 'learning_rate': 1.674e-07, 'epoch': 840.0}
  0%|          | 841/1500000 [40:39<1088:36:31,  2.61s/it]                                                            0%|          | 841/1500000 [40:39<1088:36:31,  2.61s/it]{'loss': 1.7515, 'grad_norm': 1.7014718055725098, 'learning_rate': 1.6760000000000002e-07, 'epoch': 841.0}
  0%|          | 842/1500000 [40:42<1085:49:24,  2.61s/it]                                                            0%|          | 842/1500000 [40:42<1085:49:24,  2.61s/it]{'loss': 1.7479, 'grad_norm': 1.7828986644744873, 'learning_rate': 1.6779999999999998e-07, 'epoch': 842.0}
  0%|          | 843/1500000 [40:44<1085:10:39,  2.61s/it]                                                            0%|          | 843/1500000 [40:44<1085:10:39,  2.61s/it]{'loss': 1.7469, 'grad_norm': 1.9115898609161377, 'learning_rate': 1.68e-07, 'epoch': 843.0}
  0%|          | 844/1500000 [40:47<1090:56:21,  2.62s/it]                                                            0%|          | 844/1500000 [40:47<1090:56:21,  2.62s/it]{'loss': 1.7504, 'grad_norm': 1.8706148862838745, 'learning_rate': 1.682e-07, 'epoch': 844.0}
  0%|          | 845/1500000 [40:49<1087:51:30,  2.61s/it]                                                            0%|          | 845/1500000 [40:49<1087:51:30,  2.61s/it]{'loss': 1.7423, 'grad_norm': 1.9232022762298584, 'learning_rate': 1.684e-07, 'epoch': 845.0}
  0%|          | 846/1500000 [40:52<1086:52:15,  2.61s/it]                                                            0%|          | 846/1500000 [40:52<1086:52:15,  2.61s/it]{'loss': 1.745, 'grad_norm': 3.0248405933380127, 'learning_rate': 1.6860000000000001e-07, 'epoch': 846.0}
  0%|          | 847/1500000 [40:55<1082:55:12,  2.60s/it]                                                            0%|          | 847/1500000 [40:55<1082:55:12,  2.60s/it]{'loss': 1.7503, 'grad_norm': 1.9297559261322021, 'learning_rate': 1.688e-07, 'epoch': 847.0}
  0%|          | 848/1500000 [40:57<1076:56:05,  2.59s/it]                                                            0%|          | 848/1500000 [40:57<1076:56:05,  2.59s/it]{'loss': 1.7465, 'grad_norm': 2.378371000289917, 'learning_rate': 1.69e-07, 'epoch': 848.0}
  0%|          | 849/1500000 [41:00<1098:45:39,  2.64s/it]                                                            0%|          | 849/1500000 [41:00<1098:45:39,  2.64s/it]{'loss': 1.7364, 'grad_norm': 2.219909191131592, 'learning_rate': 1.692e-07, 'epoch': 849.0}
  0%|          | 850/1500000 [41:03<1123:44:04,  2.70s/it]                                                            0%|          | 850/1500000 [41:03<1123:44:04,  2.70s/it]{'loss': 1.7449, 'grad_norm': 3.069209337234497, 'learning_rate': 1.6940000000000002e-07, 'epoch': 850.0}
  0%|          | 851/1500000 [41:06<1137:24:38,  2.73s/it]                                                            0%|          | 851/1500000 [41:06<1137:24:38,  2.73s/it]{'loss': 1.7368, 'grad_norm': 1.6887089014053345, 'learning_rate': 1.696e-07, 'epoch': 851.0}
  0%|          | 852/1500000 [41:08<1114:47:53,  2.68s/it]                                                            0%|          | 852/1500000 [41:08<1114:47:53,  2.68s/it]{'loss': 1.7309, 'grad_norm': 1.581363558769226, 'learning_rate': 1.698e-07, 'epoch': 852.0}
  0%|          | 853/1500000 [41:11<1113:28:49,  2.67s/it]                                                            0%|          | 853/1500000 [41:11<1113:28:49,  2.67s/it]{'loss': 1.7371, 'grad_norm': 1.620754361152649, 'learning_rate': 1.7000000000000001e-07, 'epoch': 853.0}
  0%|          | 854/1500000 [41:13<1125:17:44,  2.70s/it]                                                            0%|          | 854/1500000 [41:14<1125:17:44,  2.70s/it]{'loss': 1.7296, 'grad_norm': 1.6484346389770508, 'learning_rate': 1.702e-07, 'epoch': 854.0}
  0%|          | 855/1500000 [41:16<1113:19:39,  2.67s/it]                                                            0%|          | 855/1500000 [41:16<1113:19:39,  2.67s/it]{'loss': 1.734, 'grad_norm': 1.8588974475860596, 'learning_rate': 1.7040000000000002e-07, 'epoch': 855.0}
  0%|          | 856/1500000 [41:19<1088:04:11,  2.61s/it]                                                            0%|          | 856/1500000 [41:19<1088:04:11,  2.61s/it]{'loss': 1.7287, 'grad_norm': 1.6058942079544067, 'learning_rate': 1.7059999999999998e-07, 'epoch': 856.0}
  0%|          | 857/1500000 [41:21<1116:07:58,  2.68s/it]                                                            0%|          | 857/1500000 [41:21<1116:07:58,  2.68s/it]{'loss': 1.7286, 'grad_norm': 1.5612702369689941, 'learning_rate': 1.708e-07, 'epoch': 857.0}
  0%|          | 858/1500000 [41:24<1099:58:03,  2.64s/it]                                                            0%|          | 858/1500000 [41:24<1099:58:03,  2.64s/it]{'loss': 1.7263, 'grad_norm': 1.9019744396209717, 'learning_rate': 1.71e-07, 'epoch': 858.0}
  0%|          | 859/1500000 [41:27<1092:19:15,  2.62s/it]                                                            0%|          | 859/1500000 [41:27<1092:19:15,  2.62s/it]{'loss': 1.7267, 'grad_norm': 1.5613186359405518, 'learning_rate': 1.712e-07, 'epoch': 859.0}
  0%|          | 860/1500000 [41:29<1089:49:56,  2.62s/it]                                                            0%|          | 860/1500000 [41:29<1089:49:56,  2.62s/it]{'loss': 1.7189, 'grad_norm': 1.4974290132522583, 'learning_rate': 1.714e-07, 'epoch': 860.0}
  0%|          | 861/1500000 [41:32<1088:50:12,  2.61s/it]                                                            0%|          | 861/1500000 [41:32<1088:50:12,  2.61s/it]{'loss': 1.7235, 'grad_norm': 1.5385708808898926, 'learning_rate': 1.716e-07, 'epoch': 861.0}
  0%|          | 862/1500000 [41:34<1091:19:43,  2.62s/it]                                                            0%|          | 862/1500000 [41:34<1091:19:43,  2.62s/it]{'loss': 1.7235, 'grad_norm': 3.5210704803466797, 'learning_rate': 1.718e-07, 'epoch': 862.0}
  0%|          | 863/1500000 [41:37<1111:37:42,  2.67s/it]                                                            0%|          | 863/1500000 [41:37<1111:37:42,  2.67s/it]{'loss': 1.7194, 'grad_norm': 1.4794481992721558, 'learning_rate': 1.72e-07, 'epoch': 863.0}
  0%|          | 864/1500000 [41:40<1110:50:50,  2.67s/it]                                                            0%|          | 864/1500000 [41:40<1110:50:50,  2.67s/it]{'loss': 1.7159, 'grad_norm': 1.941144585609436, 'learning_rate': 1.7220000000000002e-07, 'epoch': 864.0}
  0%|          | 865/1500000 [41:43<1119:43:47,  2.69s/it]                                                            0%|          | 865/1500000 [41:43<1119:43:47,  2.69s/it]{'loss': 1.7152, 'grad_norm': 3.3683834075927734, 'learning_rate': 1.724e-07, 'epoch': 865.0}
  0%|          | 866/1500000 [41:45<1100:52:07,  2.64s/it]                                                            0%|          | 866/1500000 [41:45<1100:52:07,  2.64s/it]{'loss': 1.7122, 'grad_norm': 1.7121623754501343, 'learning_rate': 1.726e-07, 'epoch': 866.0}
  0%|          | 867/1500000 [41:48<1122:53:08,  2.70s/it]                                                            0%|          | 867/1500000 [41:48<1122:53:08,  2.70s/it]{'loss': 1.7107, 'grad_norm': 1.7186126708984375, 'learning_rate': 1.728e-07, 'epoch': 867.0}
  0%|          | 868/1500000 [41:51<1140:35:42,  2.74s/it]                                                            0%|          | 868/1500000 [41:51<1140:35:42,  2.74s/it]{'loss': 1.7137, 'grad_norm': 1.6242839097976685, 'learning_rate': 1.73e-07, 'epoch': 868.0}
  0%|          | 869/1500000 [41:53<1126:20:46,  2.70s/it]                                                            0%|          | 869/1500000 [41:53<1126:20:46,  2.70s/it]{'loss': 1.7118, 'grad_norm': 1.486316204071045, 'learning_rate': 1.7320000000000002e-07, 'epoch': 869.0}
  0%|          | 870/1500000 [41:56<1140:33:50,  2.74s/it]                                                            0%|          | 870/1500000 [41:56<1140:33:50,  2.74s/it]{'loss': 1.7142, 'grad_norm': 1.5844932794570923, 'learning_rate': 1.734e-07, 'epoch': 870.0}
  0%|          | 871/1500000 [41:59<1122:37:31,  2.70s/it]                                                            0%|          | 871/1500000 [41:59<1122:37:31,  2.70s/it]{'loss': 1.7086, 'grad_norm': 1.4100611209869385, 'learning_rate': 1.736e-07, 'epoch': 871.0}
  0%|          | 872/1500000 [42:01<1099:16:44,  2.64s/it]                                                            0%|          | 872/1500000 [42:01<1099:16:44,  2.64s/it]{'loss': 1.709, 'grad_norm': 1.6601015329360962, 'learning_rate': 1.738e-07, 'epoch': 872.0}
  0%|          | 873/1500000 [42:04<1099:27:50,  2.64s/it]                                                            0%|          | 873/1500000 [42:04<1099:27:50,  2.64s/it]{'loss': 1.7052, 'grad_norm': 3.823962926864624, 'learning_rate': 1.74e-07, 'epoch': 873.0}
  0%|          | 874/1500000 [42:06<1082:18:58,  2.60s/it]                                                            0%|          | 874/1500000 [42:06<1082:18:58,  2.60s/it]{'loss': 1.712, 'grad_norm': 1.4802550077438354, 'learning_rate': 1.742e-07, 'epoch': 874.0}
  0%|          | 875/1500000 [42:09<1071:33:28,  2.57s/it]                                                            0%|          | 875/1500000 [42:09<1071:33:28,  2.57s/it]{'loss': 1.7083, 'grad_norm': 1.7749130725860596, 'learning_rate': 1.744e-07, 'epoch': 875.0}
  0%|          | 876/1500000 [42:11<1064:19:23,  2.56s/it]                                                            0%|          | 876/1500000 [42:12<1064:19:23,  2.56s/it]{'loss': 1.7015, 'grad_norm': 4.313009262084961, 'learning_rate': 1.746e-07, 'epoch': 876.0}
  0%|          | 877/1500000 [42:14<1068:26:03,  2.57s/it]                                                            0%|          | 877/1500000 [42:14<1068:26:03,  2.57s/it]{'loss': 1.703, 'grad_norm': 1.648728847503662, 'learning_rate': 1.748e-07, 'epoch': 877.0}
  0%|          | 878/1500000 [42:17<1063:30:45,  2.55s/it]                                                            0%|          | 878/1500000 [42:17<1063:30:45,  2.55s/it]{'loss': 1.708, 'grad_norm': 22.989561080932617, 'learning_rate': 1.7500000000000002e-07, 'epoch': 878.0}
  0%|          | 879/1500000 [42:19<1063:55:13,  2.55s/it]                                                            0%|          | 879/1500000 [42:19<1063:55:13,  2.55s/it]{'loss': 1.7004, 'grad_norm': 1.4962801933288574, 'learning_rate': 1.752e-07, 'epoch': 879.0}
  0%|          | 880/1500000 [42:22<1061:29:14,  2.55s/it]                                                            0%|          | 880/1500000 [42:22<1061:29:14,  2.55s/it]{'loss': 1.6998, 'grad_norm': 1.3965576887130737, 'learning_rate': 1.754e-07, 'epoch': 880.0}
  0%|          | 881/1500000 [42:24<1055:26:47,  2.53s/it]                                                            0%|          | 881/1500000 [42:24<1055:26:47,  2.53s/it]{'loss': 1.7079, 'grad_norm': 1.4838035106658936, 'learning_rate': 1.756e-07, 'epoch': 881.0}
  0%|          | 882/1500000 [42:27<1055:45:35,  2.54s/it]                                                            0%|          | 882/1500000 [42:27<1055:45:35,  2.54s/it]{'loss': 1.7047, 'grad_norm': 1.3164207935333252, 'learning_rate': 1.758e-07, 'epoch': 882.0}
  0%|          | 883/1500000 [42:30<1093:50:01,  2.63s/it]                                                            0%|          | 883/1500000 [42:30<1093:50:01,  2.63s/it]{'loss': 1.6979, 'grad_norm': 1.479262113571167, 'learning_rate': 1.7600000000000001e-07, 'epoch': 883.0}
  0%|          | 884/1500000 [42:32<1084:43:59,  2.60s/it]                                                            0%|          | 884/1500000 [42:32<1084:43:59,  2.60s/it]{'loss': 1.6984, 'grad_norm': 1.3503351211547852, 'learning_rate': 1.762e-07, 'epoch': 884.0}
  0%|          | 885/1500000 [42:35<1117:50:43,  2.68s/it]                                                            0%|          | 885/1500000 [42:35<1117:50:43,  2.68s/it]{'loss': 1.6927, 'grad_norm': 1.5067299604415894, 'learning_rate': 1.764e-07, 'epoch': 885.0}
  0%|          | 886/1500000 [42:38<1099:47:11,  2.64s/it]                                                            0%|          | 886/1500000 [42:38<1099:47:11,  2.64s/it]{'loss': 1.6926, 'grad_norm': 1.3395427465438843, 'learning_rate': 1.766e-07, 'epoch': 886.0}
  0%|          | 887/1500000 [42:40<1103:54:12,  2.65s/it]                                                            0%|          | 887/1500000 [42:40<1103:54:12,  2.65s/it]{'loss': 1.6898, 'grad_norm': 1.3938106298446655, 'learning_rate': 1.7680000000000002e-07, 'epoch': 887.0}
  0%|          | 888/1500000 [42:43<1096:19:49,  2.63s/it]                                                            0%|          | 888/1500000 [42:43<1096:19:49,  2.63s/it]{'loss': 1.6852, 'grad_norm': 1.5621803998947144, 'learning_rate': 1.77e-07, 'epoch': 888.0}
  0%|          | 889/1500000 [42:45<1085:48:51,  2.61s/it]                                                            0%|          | 889/1500000 [42:45<1085:48:51,  2.61s/it]{'loss': 1.6995, 'grad_norm': 2.0086028575897217, 'learning_rate': 1.772e-07, 'epoch': 889.0}
  0%|          | 890/1500000 [42:48<1078:08:53,  2.59s/it]                                                            0%|          | 890/1500000 [42:48<1078:08:53,  2.59s/it]{'loss': 1.6905, 'grad_norm': 1.3162192106246948, 'learning_rate': 1.774e-07, 'epoch': 890.0}
  0%|          | 891/1500000 [42:50<1075:33:24,  2.58s/it]                                                            0%|          | 891/1500000 [42:50<1075:33:24,  2.58s/it]{'loss': 1.6867, 'grad_norm': 1.2977845668792725, 'learning_rate': 1.776e-07, 'epoch': 891.0}
  0%|          | 892/1500000 [42:53<1067:57:42,  2.56s/it]                                                            0%|          | 892/1500000 [42:53<1067:57:42,  2.56s/it]{'loss': 1.6837, 'grad_norm': 1.254430890083313, 'learning_rate': 1.7780000000000002e-07, 'epoch': 892.0}
  0%|          | 893/1500000 [42:56<1063:09:59,  2.55s/it]                                                            0%|          | 893/1500000 [42:56<1063:09:59,  2.55s/it]{'loss': 1.6842, 'grad_norm': 2.1136436462402344, 'learning_rate': 1.78e-07, 'epoch': 893.0}
  0%|          | 894/1500000 [42:58<1081:40:45,  2.60s/it]                                                            0%|          | 894/1500000 [42:58<1081:40:45,  2.60s/it]{'loss': 1.6813, 'grad_norm': 1.5399609804153442, 'learning_rate': 1.782e-07, 'epoch': 894.0}
  0%|          | 895/1500000 [43:01<1077:35:22,  2.59s/it]                                                            0%|          | 895/1500000 [43:01<1077:35:22,  2.59s/it]{'loss': 1.6843, 'grad_norm': 1.2485486268997192, 'learning_rate': 1.784e-07, 'epoch': 895.0}
  0%|          | 896/1500000 [43:03<1073:38:16,  2.58s/it]                                                            0%|          | 896/1500000 [43:03<1073:38:16,  2.58s/it]{'loss': 1.6825, 'grad_norm': 1.2928134202957153, 'learning_rate': 1.786e-07, 'epoch': 896.0}
  0%|          | 897/1500000 [43:06<1076:56:08,  2.59s/it]                                                            0%|          | 897/1500000 [43:06<1076:56:08,  2.59s/it]{'loss': 1.6761, 'grad_norm': 1.5955228805541992, 'learning_rate': 1.788e-07, 'epoch': 897.0}
  0%|          | 898/1500000 [43:09<1074:11:30,  2.58s/it]                                                            0%|          | 898/1500000 [43:09<1074:11:30,  2.58s/it]{'loss': 1.6834, 'grad_norm': 1.693974494934082, 'learning_rate': 1.79e-07, 'epoch': 898.0}
  0%|          | 899/1500000 [43:11<1075:39:38,  2.58s/it]                                                            0%|          | 899/1500000 [43:11<1075:39:38,  2.58s/it]{'loss': 1.6872, 'grad_norm': 24.019197463989258, 'learning_rate': 1.792e-07, 'epoch': 899.0}
  0%|          | 900/1500000 [43:14<1082:30:25,  2.60s/it]                                                            0%|          | 900/1500000 [43:14<1082:30:25,  2.60s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.6823, 'grad_norm': 1.8809893131256104, 'learning_rate': 1.794e-07, 'epoch': 900.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.21it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.23s/it][A
 57%|█████▋    | 4/7 [00:05<00:04,  1.48s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.41s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.35s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.02s/it][A                                                          
                                             [A  0%|          | 900/1500000 [43:56<1082:30:25,  2.60s/it]
100%|██████████| 7/7 [00:08<00:00,  1.02s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-700] due to args.save_total_limit
{'eval_loss': 3.5061514377593994, 'eval_wer': 1.0, 'eval_cer': 0.9996818092813785, 'eval_runtime': 14.926, 'eval_samples_per_second': 65.858, 'eval_steps_per_second': 0.469, 'epoch': 900.0}
  0%|          | 901/1500000 [44:13<8169:13:53, 19.62s/it]                                                            0%|          | 901/1500000 [44:13<8169:13:53, 19.62s/it]{'loss': 1.6777, 'grad_norm': 7.289846897125244, 'learning_rate': 1.7960000000000002e-07, 'epoch': 901.0}
  0%|          | 902/1500000 [44:16<6086:12:10, 14.62s/it]                                                            0%|          | 902/1500000 [44:16<6086:12:10, 14.62s/it]{'loss': 1.6843, 'grad_norm': 1.5632303953170776, 'learning_rate': 1.798e-07, 'epoch': 902.0}
  0%|          | 903/1500000 [44:19<4611:04:38, 11.07s/it]                                                            0%|          | 903/1500000 [44:19<4611:04:38, 11.07s/it]{'loss': 1.6713, 'grad_norm': 1.2164356708526611, 'learning_rate': 1.8e-07, 'epoch': 903.0}
  0%|          | 904/1500000 [44:21<3554:25:48,  8.54s/it]                                                            0%|          | 904/1500000 [44:21<3554:25:48,  8.54s/it]{'loss': 1.6749, 'grad_norm': 1.7437841892242432, 'learning_rate': 1.802e-07, 'epoch': 904.0}
  0%|          | 905/1500000 [44:24<2804:55:34,  6.74s/it]                                                            0%|          | 905/1500000 [44:24<2804:55:34,  6.74s/it]{'loss': 1.6721, 'grad_norm': 1.2455863952636719, 'learning_rate': 1.804e-07, 'epoch': 905.0}
  0%|          | 906/1500000 [44:27<2283:04:08,  5.48s/it]                                                            0%|          | 906/1500000 [44:27<2283:04:08,  5.48s/it]{'loss': 1.6771, 'grad_norm': 1.3489329814910889, 'learning_rate': 1.8060000000000002e-07, 'epoch': 906.0}
  0%|          | 907/1500000 [44:29<1916:28:56,  4.60s/it]                                                            0%|          | 907/1500000 [44:29<1916:28:56,  4.60s/it]{'loss': 1.6682, 'grad_norm': 1.2651866674423218, 'learning_rate': 1.808e-07, 'epoch': 907.0}
  0%|          | 908/1500000 [44:32<1668:07:12,  4.01s/it]                                                            0%|          | 908/1500000 [44:32<1668:07:12,  4.01s/it]{'loss': 1.6765, 'grad_norm': 1.280983328819275, 'learning_rate': 1.81e-07, 'epoch': 908.0}
  0%|          | 909/1500000 [44:34<1480:59:34,  3.56s/it]                                                            0%|          | 909/1500000 [44:34<1480:59:34,  3.56s/it]{'loss': 1.6697, 'grad_norm': 1.3800833225250244, 'learning_rate': 1.812e-07, 'epoch': 909.0}
  0%|          | 910/1500000 [44:37<1351:47:34,  3.25s/it]                                                            0%|          | 910/1500000 [44:37<1351:47:34,  3.25s/it]{'loss': 1.6612, 'grad_norm': 1.18763267993927, 'learning_rate': 1.814e-07, 'epoch': 910.0}
  0%|          | 911/1500000 [44:39<1262:28:59,  3.03s/it]                                                            0%|          | 911/1500000 [44:39<1262:28:59,  3.03s/it]{'loss': 1.6715, 'grad_norm': 1.9815888404846191, 'learning_rate': 1.816e-07, 'epoch': 911.0}
  0%|          | 912/1500000 [44:42<1244:52:10,  2.99s/it]                                                            0%|          | 912/1500000 [44:42<1244:52:10,  2.99s/it]{'loss': 1.6681, 'grad_norm': 2.0720643997192383, 'learning_rate': 1.818e-07, 'epoch': 912.0}
  0%|          | 913/1500000 [44:45<1192:49:53,  2.86s/it]                                                            0%|          | 913/1500000 [44:45<1192:49:53,  2.86s/it]{'loss': 1.6675, 'grad_norm': 1.1363974809646606, 'learning_rate': 1.82e-07, 'epoch': 913.0}
  0%|          | 914/1500000 [44:47<1154:12:10,  2.77s/it]                                                            0%|          | 914/1500000 [44:47<1154:12:10,  2.77s/it]{'loss': 1.6712, 'grad_norm': 1.1961008310317993, 'learning_rate': 1.822e-07, 'epoch': 914.0}
  0%|          | 915/1500000 [44:50<1162:10:49,  2.79s/it]                                                            0%|          | 915/1500000 [44:50<1162:10:49,  2.79s/it]{'loss': 1.6629, 'grad_norm': 3.5271594524383545, 'learning_rate': 1.8240000000000002e-07, 'epoch': 915.0}
  0%|          | 916/1500000 [44:53<1144:39:52,  2.75s/it]                                                            0%|          | 916/1500000 [44:53<1144:39:52,  2.75s/it]{'loss': 1.6638, 'grad_norm': 1.2886525392532349, 'learning_rate': 1.826e-07, 'epoch': 916.0}
  0%|          | 917/1500000 [44:55<1124:03:23,  2.70s/it]                                                            0%|          | 917/1500000 [44:55<1124:03:23,  2.70s/it]{'loss': 1.667, 'grad_norm': 3.6112558841705322, 'learning_rate': 1.828e-07, 'epoch': 917.0}
  0%|          | 918/1500000 [44:58<1103:15:04,  2.65s/it]                                                            0%|          | 918/1500000 [44:58<1103:15:04,  2.65s/it]{'loss': 1.6659, 'grad_norm': 1.1059443950653076, 'learning_rate': 1.83e-07, 'epoch': 918.0}
  0%|          | 919/1500000 [45:00<1099:19:32,  2.64s/it]                                                            0%|          | 919/1500000 [45:00<1099:19:32,  2.64s/it]{'loss': 1.6583, 'grad_norm': 1.2059946060180664, 'learning_rate': 1.832e-07, 'epoch': 919.0}
  0%|          | 920/1500000 [45:03<1075:33:30,  2.58s/it]                                                            0%|          | 920/1500000 [45:03<1075:33:30,  2.58s/it]{'loss': 1.6599, 'grad_norm': 1.0824497938156128, 'learning_rate': 1.8340000000000001e-07, 'epoch': 920.0}
  0%|          | 921/1500000 [45:06<1075:09:17,  2.58s/it]                                                            0%|          | 921/1500000 [45:06<1075:09:17,  2.58s/it]{'loss': 1.6527, 'grad_norm': 1.2805767059326172, 'learning_rate': 1.836e-07, 'epoch': 921.0}
  0%|          | 922/1500000 [45:08<1110:23:06,  2.67s/it]                                                            0%|          | 922/1500000 [45:08<1110:23:06,  2.67s/it]{'loss': 1.6621, 'grad_norm': 16.977970123291016, 'learning_rate': 1.838e-07, 'epoch': 922.0}
  0%|          | 923/1500000 [45:11<1101:06:13,  2.64s/it]                                                            0%|          | 923/1500000 [45:11<1101:06:13,  2.64s/it]{'loss': 1.6573, 'grad_norm': 1.8109819889068604, 'learning_rate': 1.84e-07, 'epoch': 923.0}
  0%|          | 924/1500000 [45:14<1090:20:28,  2.62s/it]                                                            0%|          | 924/1500000 [45:14<1090:20:28,  2.62s/it]{'loss': 1.6646, 'grad_norm': 4.374696254730225, 'learning_rate': 1.842e-07, 'epoch': 924.0}
  0%|          | 925/1500000 [45:16<1118:57:20,  2.69s/it]                                                            0%|          | 925/1500000 [45:16<1118:57:20,  2.69s/it]{'loss': 1.6555, 'grad_norm': 1.1373530626296997, 'learning_rate': 1.844e-07, 'epoch': 925.0}
  0%|          | 926/1500000 [45:19<1111:19:33,  2.67s/it]                                                            0%|          | 926/1500000 [45:19<1111:19:33,  2.67s/it]{'loss': 1.6594, 'grad_norm': 1.135043978691101, 'learning_rate': 1.846e-07, 'epoch': 926.0}
  0%|          | 927/1500000 [45:22<1095:44:49,  2.63s/it]                                                            0%|          | 927/1500000 [45:22<1095:44:49,  2.63s/it]{'loss': 1.6546, 'grad_norm': 1.1703171730041504, 'learning_rate': 1.848e-07, 'epoch': 927.0}
  0%|          | 928/1500000 [45:24<1087:14:03,  2.61s/it]                                                            0%|          | 928/1500000 [45:24<1087:14:03,  2.61s/it]{'loss': 1.6552, 'grad_norm': 1.405674695968628, 'learning_rate': 1.85e-07, 'epoch': 928.0}
  0%|          | 929/1500000 [45:27<1090:53:09,  2.62s/it]                                                            0%|          | 929/1500000 [45:27<1090:53:09,  2.62s/it]{'loss': 1.6531, 'grad_norm': 1.2653117179870605, 'learning_rate': 1.8520000000000002e-07, 'epoch': 929.0}
  0%|          | 930/1500000 [45:30<1125:11:33,  2.70s/it]                                                            0%|          | 930/1500000 [45:30<1125:11:33,  2.70s/it]{'loss': 1.6535, 'grad_norm': 1.0446969270706177, 'learning_rate': 1.854e-07, 'epoch': 930.0}
  0%|          | 931/1500000 [45:32<1123:09:00,  2.70s/it]                                                            0%|          | 931/1500000 [45:32<1123:09:00,  2.70s/it]{'loss': 1.6471, 'grad_norm': 1.2374356985092163, 'learning_rate': 1.856e-07, 'epoch': 931.0}
  0%|          | 932/1500000 [45:35<1109:43:01,  2.66s/it]                                                            0%|          | 932/1500000 [45:35<1109:43:01,  2.66s/it]{'loss': 1.6569, 'grad_norm': 1.827778935432434, 'learning_rate': 1.858e-07, 'epoch': 932.0}
  0%|          | 933/1500000 [45:38<1102:45:11,  2.65s/it]                                                            0%|          | 933/1500000 [45:38<1102:45:11,  2.65s/it]{'loss': 1.6523, 'grad_norm': 1.4429855346679688, 'learning_rate': 1.86e-07, 'epoch': 933.0}
  0%|          | 934/1500000 [45:40<1132:51:52,  2.72s/it]                                                            0%|          | 934/1500000 [45:40<1132:51:52,  2.72s/it]{'loss': 1.6476, 'grad_norm': 1.0403034687042236, 'learning_rate': 1.862e-07, 'epoch': 934.0}
  0%|          | 935/1500000 [45:43<1123:09:51,  2.70s/it]                                                            0%|          | 935/1500000 [45:43<1123:09:51,  2.70s/it]{'loss': 1.6511, 'grad_norm': 1.3327019214630127, 'learning_rate': 1.8640000000000003e-07, 'epoch': 935.0}
  0%|          | 936/1500000 [45:46<1145:05:51,  2.75s/it]                                                            0%|          | 936/1500000 [45:46<1145:05:51,  2.75s/it]{'loss': 1.6423, 'grad_norm': 3.2895419597625732, 'learning_rate': 1.866e-07, 'epoch': 936.0}
  0%|          | 937/1500000 [45:49<1157:59:22,  2.78s/it]                                                            0%|          | 937/1500000 [45:49<1157:59:22,  2.78s/it]{'loss': 1.6475, 'grad_norm': 1.3313167095184326, 'learning_rate': 1.868e-07, 'epoch': 937.0}
  0%|          | 938/1500000 [45:52<1171:54:07,  2.81s/it]                                                            0%|          | 938/1500000 [45:52<1171:54:07,  2.81s/it]{'loss': 1.6489, 'grad_norm': 1.0129790306091309, 'learning_rate': 1.87e-07, 'epoch': 938.0}
  0%|          | 939/1500000 [45:54<1135:00:39,  2.73s/it]                                                            0%|          | 939/1500000 [45:54<1135:00:39,  2.73s/it]{'loss': 1.6496, 'grad_norm': 4.673969268798828, 'learning_rate': 1.872e-07, 'epoch': 939.0}
  0%|          | 940/1500000 [45:57<1112:14:01,  2.67s/it]                                                            0%|          | 940/1500000 [45:57<1112:14:01,  2.67s/it]{'loss': 1.6458, 'grad_norm': 4.099658012390137, 'learning_rate': 1.8740000000000002e-07, 'epoch': 940.0}
  0%|          | 941/1500000 [45:59<1104:45:14,  2.65s/it]                                                            0%|          | 941/1500000 [45:59<1104:45:14,  2.65s/it]{'loss': 1.6477, 'grad_norm': 1.4593976736068726, 'learning_rate': 1.8759999999999999e-07, 'epoch': 941.0}
  0%|          | 942/1500000 [46:02<1122:52:24,  2.70s/it]                                                            0%|          | 942/1500000 [46:02<1122:52:24,  2.70s/it]{'loss': 1.6503, 'grad_norm': 1.2744107246398926, 'learning_rate': 1.878e-07, 'epoch': 942.0}
  0%|          | 943/1500000 [46:05<1135:19:17,  2.73s/it]                                                            0%|          | 943/1500000 [46:05<1135:19:17,  2.73s/it]{'loss': 1.6401, 'grad_norm': 1.1063960790634155, 'learning_rate': 1.8800000000000002e-07, 'epoch': 943.0}
  0%|          | 944/1500000 [46:08<1159:07:15,  2.78s/it]                                                            0%|          | 944/1500000 [46:08<1159:07:15,  2.78s/it]{'loss': 1.6417, 'grad_norm': 2.0892364978790283, 'learning_rate': 1.882e-07, 'epoch': 944.0}
  0%|          | 945/1500000 [46:11<1159:18:51,  2.78s/it]                                                            0%|          | 945/1500000 [46:11<1159:18:51,  2.78s/it]{'loss': 1.6428, 'grad_norm': 1.0549347400665283, 'learning_rate': 1.884e-07, 'epoch': 945.0}
  0%|          | 946/1500000 [46:13<1129:07:12,  2.71s/it]                                                            0%|          | 946/1500000 [46:13<1129:07:12,  2.71s/it]{'loss': 1.6375, 'grad_norm': 1.0397493839263916, 'learning_rate': 1.886e-07, 'epoch': 946.0}
  0%|          | 947/1500000 [46:16<1110:56:45,  2.67s/it]                                                            0%|          | 947/1500000 [46:16<1110:56:45,  2.67s/it]{'loss': 1.641, 'grad_norm': 1.138031244277954, 'learning_rate': 1.888e-07, 'epoch': 947.0}
  0%|          | 948/1500000 [46:18<1093:00:19,  2.62s/it]                                                            0%|          | 948/1500000 [46:18<1093:00:19,  2.62s/it]{'loss': 1.6408, 'grad_norm': 1.2404905557632446, 'learning_rate': 1.89e-07, 'epoch': 948.0}
  0%|          | 949/1500000 [46:21<1091:54:11,  2.62s/it]                                                            0%|          | 949/1500000 [46:21<1091:54:11,  2.62s/it]{'loss': 1.6333, 'grad_norm': 1.1873743534088135, 'learning_rate': 1.8920000000000003e-07, 'epoch': 949.0}
  0%|          | 950/1500000 [46:23<1083:35:59,  2.60s/it]                                                            0%|          | 950/1500000 [46:23<1083:35:59,  2.60s/it]{'loss': 1.6389, 'grad_norm': 1.2409088611602783, 'learning_rate': 1.894e-07, 'epoch': 950.0}
  0%|          | 951/1500000 [46:26<1127:44:06,  2.71s/it]                                                            0%|          | 951/1500000 [46:26<1127:44:06,  2.71s/it]{'loss': 1.6314, 'grad_norm': 4.043206691741943, 'learning_rate': 1.896e-07, 'epoch': 951.0}
  0%|          | 952/1500000 [46:29<1111:47:27,  2.67s/it]                                                            0%|          | 952/1500000 [46:29<1111:47:27,  2.67s/it]{'loss': 1.6365, 'grad_norm': 0.9756543040275574, 'learning_rate': 1.8980000000000002e-07, 'epoch': 952.0}
  0%|          | 953/1500000 [46:32<1096:12:25,  2.63s/it]                                                            0%|          | 953/1500000 [46:32<1096:12:25,  2.63s/it]{'loss': 1.6328, 'grad_norm': 1.0446370840072632, 'learning_rate': 1.9e-07, 'epoch': 953.0}
  0%|          | 954/1500000 [46:34<1081:56:33,  2.60s/it]                                                            0%|          | 954/1500000 [46:34<1081:56:33,  2.60s/it]{'loss': 1.6364, 'grad_norm': 1.219887137413025, 'learning_rate': 1.9020000000000002e-07, 'epoch': 954.0}
  0%|          | 955/1500000 [46:37<1086:02:17,  2.61s/it]                                                            0%|          | 955/1500000 [46:37<1086:02:17,  2.61s/it]{'loss': 1.6361, 'grad_norm': 0.9210452437400818, 'learning_rate': 1.9039999999999998e-07, 'epoch': 955.0}
  0%|          | 956/1500000 [46:39<1077:00:59,  2.59s/it]                                                            0%|          | 956/1500000 [46:39<1077:00:59,  2.59s/it]{'loss': 1.63, 'grad_norm': 1.0765300989151, 'learning_rate': 1.906e-07, 'epoch': 956.0}
  0%|          | 957/1500000 [46:42<1076:36:59,  2.59s/it]                                                            0%|          | 957/1500000 [46:42<1076:36:59,  2.59s/it]{'loss': 1.6323, 'grad_norm': 2.0179483890533447, 'learning_rate': 1.9080000000000001e-07, 'epoch': 957.0}
  0%|          | 958/1500000 [46:45<1105:20:54,  2.65s/it]                                                            0%|          | 958/1500000 [46:45<1105:20:54,  2.65s/it]{'loss': 1.6281, 'grad_norm': 1.5964845418930054, 'learning_rate': 1.91e-07, 'epoch': 958.0}
  0%|          | 959/1500000 [46:47<1100:48:19,  2.64s/it]                                                            0%|          | 959/1500000 [46:47<1100:48:19,  2.64s/it]{'loss': 1.6306, 'grad_norm': 2.0451290607452393, 'learning_rate': 1.912e-07, 'epoch': 959.0}
  0%|          | 960/1500000 [46:50<1094:39:04,  2.63s/it]                                                            0%|          | 960/1500000 [46:50<1094:39:04,  2.63s/it]{'loss': 1.6248, 'grad_norm': 0.9319092631340027, 'learning_rate': 1.914e-07, 'epoch': 960.0}
  0%|          | 961/1500000 [46:52<1093:25:57,  2.63s/it]                                                            0%|          | 961/1500000 [46:52<1093:25:57,  2.63s/it]{'loss': 1.6355, 'grad_norm': 40.506675720214844, 'learning_rate': 1.916e-07, 'epoch': 961.0}
  0%|          | 962/1500000 [46:55<1087:45:52,  2.61s/it]                                                            0%|          | 962/1500000 [46:55<1087:45:52,  2.61s/it]{'loss': 1.6226, 'grad_norm': 0.9858155846595764, 'learning_rate': 1.918e-07, 'epoch': 962.0}
  0%|          | 963/1500000 [46:58<1077:17:27,  2.59s/it]                                                            0%|          | 963/1500000 [46:58<1077:17:27,  2.59s/it]{'loss': 1.6272, 'grad_norm': 1.0020569562911987, 'learning_rate': 1.9200000000000003e-07, 'epoch': 963.0}
  0%|          | 964/1500000 [47:00<1091:03:48,  2.62s/it]                                                            0%|          | 964/1500000 [47:00<1091:03:48,  2.62s/it]{'loss': 1.6289, 'grad_norm': 1.4338146448135376, 'learning_rate': 1.922e-07, 'epoch': 964.0}
  0%|          | 965/1500000 [47:03<1086:44:37,  2.61s/it]                                                            0%|          | 965/1500000 [47:03<1086:44:37,  2.61s/it]{'loss': 1.6252, 'grad_norm': 1.052070140838623, 'learning_rate': 1.924e-07, 'epoch': 965.0}
  0%|          | 966/1500000 [47:05<1082:59:17,  2.60s/it]                                                            0%|          | 966/1500000 [47:05<1082:59:17,  2.60s/it]{'loss': 1.6173, 'grad_norm': 1.4018009901046753, 'learning_rate': 1.9260000000000002e-07, 'epoch': 966.0}
  0%|          | 967/1500000 [47:08<1098:37:08,  2.64s/it]                                                            0%|          | 967/1500000 [47:08<1098:37:08,  2.64s/it]{'loss': 1.6237, 'grad_norm': 1.1901110410690308, 'learning_rate': 1.928e-07, 'epoch': 967.0}
  0%|          | 968/1500000 [47:11<1093:55:43,  2.63s/it]                                                            0%|          | 968/1500000 [47:11<1093:55:43,  2.63s/it]{'loss': 1.6199, 'grad_norm': 0.9189120531082153, 'learning_rate': 1.9300000000000002e-07, 'epoch': 968.0}
  0%|          | 969/1500000 [47:13<1078:16:38,  2.59s/it]                                                            0%|          | 969/1500000 [47:13<1078:16:38,  2.59s/it]{'loss': 1.6202, 'grad_norm': 0.9501894116401672, 'learning_rate': 1.932e-07, 'epoch': 969.0}
  0%|          | 970/1500000 [47:16<1074:29:43,  2.58s/it]                                                            0%|          | 970/1500000 [47:16<1074:29:43,  2.58s/it]{'loss': 1.6176, 'grad_norm': 1.4390616416931152, 'learning_rate': 1.934e-07, 'epoch': 970.0}
  0%|          | 971/1500000 [47:18<1076:43:27,  2.59s/it]                                                            0%|          | 971/1500000 [47:18<1076:43:27,  2.59s/it]{'loss': 1.6155, 'grad_norm': 2.0271224975585938, 'learning_rate': 1.936e-07, 'epoch': 971.0}
  0%|          | 972/1500000 [47:21<1074:42:05,  2.58s/it]                                                            0%|          | 972/1500000 [47:21<1074:42:05,  2.58s/it]{'loss': 1.616, 'grad_norm': 0.9586737751960754, 'learning_rate': 1.938e-07, 'epoch': 972.0}
  0%|          | 973/1500000 [47:24<1116:37:35,  2.68s/it]                                                            0%|          | 973/1500000 [47:24<1116:37:35,  2.68s/it]{'loss': 1.6205, 'grad_norm': 1.2440752983093262, 'learning_rate': 1.94e-07, 'epoch': 973.0}
  0%|          | 974/1500000 [47:27<1109:54:08,  2.67s/it]                                                            0%|          | 974/1500000 [47:27<1109:54:08,  2.67s/it]{'loss': 1.6218, 'grad_norm': 1.0020045042037964, 'learning_rate': 1.942e-07, 'epoch': 974.0}
  0%|          | 975/1500000 [47:29<1097:02:43,  2.63s/it]                                                            0%|          | 975/1500000 [47:29<1097:02:43,  2.63s/it]{'loss': 1.6198, 'grad_norm': 2.2769696712493896, 'learning_rate': 1.944e-07, 'epoch': 975.0}
  0%|          | 976/1500000 [47:32<1096:15:15,  2.63s/it]                                                            0%|          | 976/1500000 [47:32<1096:15:15,  2.63s/it]{'loss': 1.6167, 'grad_norm': 0.9601196646690369, 'learning_rate': 1.946e-07, 'epoch': 976.0}
  0%|          | 977/1500000 [47:34<1087:56:38,  2.61s/it]                                                            0%|          | 977/1500000 [47:34<1087:56:38,  2.61s/it]{'loss': 1.6089, 'grad_norm': 0.9332568049430847, 'learning_rate': 1.9480000000000002e-07, 'epoch': 977.0}
  0%|          | 978/1500000 [47:37<1069:23:34,  2.57s/it]                                                            0%|          | 978/1500000 [47:37<1069:23:34,  2.57s/it]{'loss': 1.618, 'grad_norm': 0.9011194109916687, 'learning_rate': 1.9499999999999999e-07, 'epoch': 978.0}
  0%|          | 979/1500000 [47:39<1082:27:39,  2.60s/it]                                                            0%|          | 979/1500000 [47:39<1082:27:39,  2.60s/it]{'loss': 1.6082, 'grad_norm': 1.0645091533660889, 'learning_rate': 1.952e-07, 'epoch': 979.0}
  0%|          | 980/1500000 [47:42<1072:42:21,  2.58s/it]                                                            0%|          | 980/1500000 [47:42<1072:42:21,  2.58s/it]{'loss': 1.6059, 'grad_norm': 1.2063056230545044, 'learning_rate': 1.9540000000000002e-07, 'epoch': 980.0}
  0%|          | 981/1500000 [47:45<1119:39:24,  2.69s/it]                                                            0%|          | 981/1500000 [47:45<1119:39:24,  2.69s/it]{'loss': 1.6117, 'grad_norm': 2.6769473552703857, 'learning_rate': 1.956e-07, 'epoch': 981.0}
  0%|          | 982/1500000 [47:47<1106:24:43,  2.66s/it]                                                            0%|          | 982/1500000 [47:47<1106:24:43,  2.66s/it]{'loss': 1.6072, 'grad_norm': 1.0495208501815796, 'learning_rate': 1.9580000000000002e-07, 'epoch': 982.0}
  0%|          | 983/1500000 [47:50<1108:10:28,  2.66s/it]                                                            0%|          | 983/1500000 [47:50<1108:10:28,  2.66s/it]{'loss': 1.6097, 'grad_norm': 0.9004780054092407, 'learning_rate': 1.96e-07, 'epoch': 983.0}
  0%|          | 984/1500000 [47:53<1099:12:34,  2.64s/it]                                                            0%|          | 984/1500000 [47:53<1099:12:34,  2.64s/it]{'loss': 1.6124, 'grad_norm': 2.2003862857818604, 'learning_rate': 1.962e-07, 'epoch': 984.0}
  0%|          | 985/1500000 [47:56<1118:20:22,  2.69s/it]                                                            0%|          | 985/1500000 [47:56<1118:20:22,  2.69s/it]{'loss': 1.607, 'grad_norm': 1.6124346256256104, 'learning_rate': 1.964e-07, 'epoch': 985.0}
  0%|          | 986/1500000 [47:58<1104:16:07,  2.65s/it]                                                            0%|          | 986/1500000 [47:58<1104:16:07,  2.65s/it]{'loss': 1.6101, 'grad_norm': 3.331295967102051, 'learning_rate': 1.9660000000000003e-07, 'epoch': 986.0}
  0%|          | 987/1500000 [48:01<1104:42:08,  2.65s/it]                                                            0%|          | 987/1500000 [48:01<1104:42:08,  2.65s/it]{'loss': 1.6016, 'grad_norm': 4.2284770011901855, 'learning_rate': 1.968e-07, 'epoch': 987.0}
  0%|          | 988/1500000 [48:03<1101:32:51,  2.65s/it]                                                            0%|          | 988/1500000 [48:03<1101:32:51,  2.65s/it]{'loss': 1.6081, 'grad_norm': 14.074902534484863, 'learning_rate': 1.97e-07, 'epoch': 988.0}
  0%|          | 989/1500000 [48:06<1089:35:50,  2.62s/it]                                                            0%|          | 989/1500000 [48:06<1089:35:50,  2.62s/it]{'loss': 1.6059, 'grad_norm': 2.105473518371582, 'learning_rate': 1.972e-07, 'epoch': 989.0}
  0%|          | 990/1500000 [48:09<1109:29:55,  2.66s/it]                                                            0%|          | 990/1500000 [48:09<1109:29:55,  2.66s/it]{'loss': 1.6033, 'grad_norm': 0.8988717198371887, 'learning_rate': 1.974e-07, 'epoch': 990.0}
  0%|          | 991/1500000 [48:11<1097:25:29,  2.64s/it]                                                            0%|          | 991/1500000 [48:11<1097:25:29,  2.64s/it]{'loss': 1.612, 'grad_norm': 1.6289899349212646, 'learning_rate': 1.9760000000000002e-07, 'epoch': 991.0}
  0%|          | 992/1500000 [48:14<1125:37:14,  2.70s/it]                                                            0%|          | 992/1500000 [48:14<1125:37:14,  2.70s/it]{'loss': 1.6095, 'grad_norm': 0.9097650051116943, 'learning_rate': 1.9779999999999998e-07, 'epoch': 992.0}
  0%|          | 993/1500000 [48:17<1099:35:16,  2.64s/it]                                                            0%|          | 993/1500000 [48:17<1099:35:16,  2.64s/it]{'loss': 1.6074, 'grad_norm': 1.135284423828125, 'learning_rate': 1.98e-07, 'epoch': 993.0}
  0%|          | 994/1500000 [48:19<1102:55:48,  2.65s/it]                                                            0%|          | 994/1500000 [48:19<1102:55:48,  2.65s/it]{'loss': 1.5999, 'grad_norm': 0.9815622568130493, 'learning_rate': 1.9820000000000001e-07, 'epoch': 994.0}
  0%|          | 995/1500000 [48:22<1093:17:18,  2.63s/it]                                                            0%|          | 995/1500000 [48:22<1093:17:18,  2.63s/it]{'loss': 1.622, 'grad_norm': 1.0774178504943848, 'learning_rate': 1.984e-07, 'epoch': 995.0}
  0%|          | 996/1500000 [48:24<1080:46:13,  2.60s/it]                                                            0%|          | 996/1500000 [48:24<1080:46:13,  2.60s/it]{'loss': 1.6003, 'grad_norm': 1.3044596910476685, 'learning_rate': 1.9860000000000002e-07, 'epoch': 996.0}
  0%|          | 997/1500000 [48:27<1081:12:55,  2.60s/it]                                                            0%|          | 997/1500000 [48:27<1081:12:55,  2.60s/it]{'loss': 1.6026, 'grad_norm': 5.724979400634766, 'learning_rate': 1.988e-07, 'epoch': 997.0}
  0%|          | 998/1500000 [48:30<1098:31:02,  2.64s/it]                                                            0%|          | 998/1500000 [48:30<1098:31:02,  2.64s/it]{'loss': 1.6014, 'grad_norm': 7.915839195251465, 'learning_rate': 1.99e-07, 'epoch': 998.0}
  0%|          | 999/1500000 [48:33<1125:23:47,  2.70s/it]                                                            0%|          | 999/1500000 [48:33<1125:23:47,  2.70s/it]{'loss': 1.6004, 'grad_norm': 0.9617994427680969, 'learning_rate': 1.992e-07, 'epoch': 999.0}
  0%|          | 1000/1500000 [48:35<1137:55:14,  2.73s/it]                                                             0%|          | 1000/1500000 [48:35<1137:55:14,  2.73s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.595, 'grad_norm': 1.0033584833145142, 'learning_rate': 1.9940000000000003e-07, 'epoch': 1000.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.06it/s][A
 43%|████▎     | 3/7 [00:03<00:05,  1.30s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.26s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.34s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.45s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.08s/it][A                                                           
                                             [A  0%|          | 1000/1500000 [49:03<1137:55:14,  2.73s/it]
100%|██████████| 7/7 [00:08<00:00,  1.08s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-800] due to args.save_total_limit
{'eval_loss': 3.4487671852111816, 'eval_wer': 1.0, 'eval_cer': 0.9977481887605247, 'eval_runtime': 14.7295, 'eval_samples_per_second': 66.737, 'eval_steps_per_second': 0.475, 'epoch': 1000.0}
  0%|          | 1001/1500000 [49:17<5935:01:26, 14.25s/it]                                                             0%|          | 1001/1500000 [49:17<5935:01:26, 14.25s/it]{'loss': 1.5978, 'grad_norm': 1.1320922374725342, 'learning_rate': 1.996e-07, 'epoch': 1001.0}
  0%|          | 1002/1500000 [49:19<4514:16:27, 10.84s/it]                                                             0%|          | 1002/1500000 [49:19<4514:16:27, 10.84s/it]{'loss': 1.6008, 'grad_norm': 10.318326950073242, 'learning_rate': 1.998e-07, 'epoch': 1002.0}
  0%|          | 1003/1500000 [49:22<3483:15:50,  8.37s/it]                                                             0%|          | 1003/1500000 [49:22<3483:15:50,  8.37s/it]{'loss': 1.5938, 'grad_norm': 5.446964263916016, 'learning_rate': 2.0000000000000002e-07, 'epoch': 1003.0}
  0%|          | 1004/1500000 [49:25<2762:42:43,  6.63s/it]                                                             0%|          | 1004/1500000 [49:25<2762:42:43,  6.63s/it]{'loss': 1.6014, 'grad_norm': 1.3103594779968262, 'learning_rate': 2.002e-07, 'epoch': 1004.0}
  0%|          | 1005/1500000 [49:27<2259:11:29,  5.43s/it]                                                             0%|          | 1005/1500000 [49:27<2259:11:29,  5.43s/it]{'loss': 1.5957, 'grad_norm': 1.0951064825057983, 'learning_rate': 2.0040000000000002e-07, 'epoch': 1005.0}
  0%|          | 1006/1500000 [49:30<1913:08:03,  4.59s/it]                                                             0%|          | 1006/1500000 [49:30<1913:08:03,  4.59s/it]{'loss': 1.5892, 'grad_norm': 2.066399097442627, 'learning_rate': 2.0059999999999998e-07, 'epoch': 1006.0}
  0%|          | 1007/1500000 [49:32<1669:21:33,  4.01s/it]                                                             0%|          | 1007/1500000 [49:33<1669:21:33,  4.01s/it]{'loss': 1.5972, 'grad_norm': 1.012980341911316, 'learning_rate': 2.008e-07, 'epoch': 1007.0}
  0%|          | 1008/1500000 [49:35<1493:42:27,  3.59s/it]                                                             0%|          | 1008/1500000 [49:35<1493:42:27,  3.59s/it]{'loss': 1.5916, 'grad_norm': 1.5361199378967285, 'learning_rate': 2.01e-07, 'epoch': 1008.0}
  0%|          | 1009/1500000 [49:38<1382:01:54,  3.32s/it]                                                             0%|          | 1009/1500000 [49:38<1382:01:54,  3.32s/it]{'loss': 1.5872, 'grad_norm': 1.0442848205566406, 'learning_rate': 2.012e-07, 'epoch': 1009.0}
  0%|          | 1010/1500000 [49:40<1287:48:54,  3.09s/it]                                                             0%|          | 1010/1500000 [49:40<1287:48:54,  3.09s/it]{'loss': 1.5919, 'grad_norm': 6.148806571960449, 'learning_rate': 2.0140000000000002e-07, 'epoch': 1010.0}
  0%|          | 1011/1500000 [49:43<1220:53:02,  2.93s/it]                                                             0%|          | 1011/1500000 [49:43<1220:53:02,  2.93s/it]{'loss': 1.5922, 'grad_norm': 1.2967356443405151, 'learning_rate': 2.016e-07, 'epoch': 1011.0}
  0%|          | 1012/1500000 [49:46<1184:57:30,  2.85s/it]                                                             0%|          | 1012/1500000 [49:46<1184:57:30,  2.85s/it]{'loss': 1.5913, 'grad_norm': 6.414045810699463, 'learning_rate': 2.018e-07, 'epoch': 1012.0}
  0%|          | 1013/1500000 [49:48<1157:53:12,  2.78s/it]                                                             0%|          | 1013/1500000 [49:48<1157:53:12,  2.78s/it]{'loss': 1.5828, 'grad_norm': 1.1772363185882568, 'learning_rate': 2.02e-07, 'epoch': 1013.0}
  0%|          | 1014/1500000 [49:51<1130:02:32,  2.71s/it]                                                             0%|          | 1014/1500000 [49:51<1130:02:32,  2.71s/it]{'loss': 1.594, 'grad_norm': 3.105180501937866, 'learning_rate': 2.0220000000000002e-07, 'epoch': 1014.0}
  0%|          | 1015/1500000 [49:54<1143:43:46,  2.75s/it]                                                             0%|          | 1015/1500000 [49:54<1143:43:46,  2.75s/it]{'loss': 1.5925, 'grad_norm': 1.3187018632888794, 'learning_rate': 2.0239999999999999e-07, 'epoch': 1015.0}
  0%|          | 1016/1500000 [49:56<1129:48:17,  2.71s/it]                                                             0%|          | 1016/1500000 [49:56<1129:48:17,  2.71s/it]{'loss': 1.5964, 'grad_norm': 4.919627666473389, 'learning_rate': 2.026e-07, 'epoch': 1016.0}
  0%|          | 1017/1500000 [49:59<1115:49:02,  2.68s/it]                                                             0%|          | 1017/1500000 [49:59<1115:49:02,  2.68s/it]{'loss': 1.5861, 'grad_norm': 6.910722732543945, 'learning_rate': 2.0280000000000002e-07, 'epoch': 1017.0}
  0%|          | 1018/1500000 [50:01<1109:31:34,  2.66s/it]                                                             0%|          | 1018/1500000 [50:01<1109:31:34,  2.66s/it]{'loss': 1.5862, 'grad_norm': 1.2795530557632446, 'learning_rate': 2.03e-07, 'epoch': 1018.0}
  0%|          | 1019/1500000 [50:04<1105:30:55,  2.66s/it]                                                             0%|          | 1019/1500000 [50:04<1105:30:55,  2.66s/it]{'loss': 1.5864, 'grad_norm': 0.9177622199058533, 'learning_rate': 2.0320000000000002e-07, 'epoch': 1019.0}
  0%|          | 1020/1500000 [50:07<1100:35:14,  2.64s/it]                                                             0%|          | 1020/1500000 [50:07<1100:35:14,  2.64s/it]{'loss': 1.5891, 'grad_norm': 1.5381174087524414, 'learning_rate': 2.0339999999999998e-07, 'epoch': 1020.0}
  0%|          | 1021/1500000 [50:09<1120:31:33,  2.69s/it]                                                             0%|          | 1021/1500000 [50:10<1120:31:33,  2.69s/it]{'loss': 1.5872, 'grad_norm': 1.4343268871307373, 'learning_rate': 2.036e-07, 'epoch': 1021.0}
  0%|          | 1022/1500000 [50:12<1109:18:07,  2.66s/it]                                                             0%|          | 1022/1500000 [50:12<1109:18:07,  2.66s/it]{'loss': 1.5895, 'grad_norm': 1.11500883102417, 'learning_rate': 2.038e-07, 'epoch': 1022.0}
  0%|          | 1023/1500000 [50:15<1093:42:13,  2.63s/it]                                                             0%|          | 1023/1500000 [50:15<1093:42:13,  2.63s/it]{'loss': 1.5838, 'grad_norm': 0.9539472460746765, 'learning_rate': 2.04e-07, 'epoch': 1023.0}
  0%|          | 1024/1500000 [50:17<1089:31:51,  2.62s/it]                                                             0%|          | 1024/1500000 [50:17<1089:31:51,  2.62s/it]{'loss': 1.5815, 'grad_norm': 8.19465446472168, 'learning_rate': 2.0420000000000002e-07, 'epoch': 1024.0}
  0%|          | 1025/1500000 [50:20<1124:00:44,  2.70s/it]                                                             0%|          | 1025/1500000 [50:20<1124:00:44,  2.70s/it]{'loss': 1.5767, 'grad_norm': 2.1362464427948, 'learning_rate': 2.044e-07, 'epoch': 1025.0}
  0%|          | 1026/1500000 [50:23<1114:22:18,  2.68s/it]                                                             0%|          | 1026/1500000 [50:23<1114:22:18,  2.68s/it]{'loss': 1.5812, 'grad_norm': 1.9000413417816162, 'learning_rate': 2.046e-07, 'epoch': 1026.0}
  0%|          | 1027/1500000 [50:26<1136:24:25,  2.73s/it]                                                             0%|          | 1027/1500000 [50:26<1136:24:25,  2.73s/it]{'loss': 1.584, 'grad_norm': 1.1212537288665771, 'learning_rate': 2.048e-07, 'epoch': 1027.0}
  0%|          | 1028/1500000 [50:28<1137:41:37,  2.73s/it]                                                             0%|          | 1028/1500000 [50:28<1137:41:37,  2.73s/it]{'loss': 1.5798, 'grad_norm': 1.5567606687545776, 'learning_rate': 2.0500000000000002e-07, 'epoch': 1028.0}
  0%|          | 1029/1500000 [50:31<1130:28:30,  2.72s/it]                                                             0%|          | 1029/1500000 [50:31<1130:28:30,  2.72s/it]{'loss': 1.5807, 'grad_norm': 1.4290876388549805, 'learning_rate': 2.0519999999999998e-07, 'epoch': 1029.0}
  0%|          | 1030/1500000 [50:34<1130:48:08,  2.72s/it]                                                             0%|          | 1030/1500000 [50:34<1130:48:08,  2.72s/it]{'loss': 1.5844, 'grad_norm': 1.4025850296020508, 'learning_rate': 2.054e-07, 'epoch': 1030.0}
  0%|          | 1031/1500000 [50:37<1178:27:55,  2.83s/it]                                                             0%|          | 1031/1500000 [50:37<1178:27:55,  2.83s/it]{'loss': 1.5745, 'grad_norm': 1.0360734462738037, 'learning_rate': 2.0560000000000001e-07, 'epoch': 1031.0}
  0%|          | 1032/1500000 [50:40<1194:04:00,  2.87s/it]                                                             0%|          | 1032/1500000 [50:40<1194:04:00,  2.87s/it]{'loss': 1.5893, 'grad_norm': 0.90553218126297, 'learning_rate': 2.058e-07, 'epoch': 1032.0}
  0%|          | 1033/1500000 [50:43<1191:07:53,  2.86s/it]                                                             0%|          | 1033/1500000 [50:43<1191:07:53,  2.86s/it]{'loss': 1.5742, 'grad_norm': 1.8398399353027344, 'learning_rate': 2.0600000000000002e-07, 'epoch': 1033.0}
  0%|          | 1034/1500000 [50:45<1156:25:54,  2.78s/it]                                                             0%|          | 1034/1500000 [50:45<1156:25:54,  2.78s/it]{'loss': 1.5723, 'grad_norm': 3.009005069732666, 'learning_rate': 2.062e-07, 'epoch': 1034.0}
  0%|          | 1035/1500000 [50:48<1138:39:44,  2.73s/it]                                                             0%|          | 1035/1500000 [50:48<1138:39:44,  2.73s/it]{'loss': 1.5815, 'grad_norm': 1.2227106094360352, 'learning_rate': 2.064e-07, 'epoch': 1035.0}
  0%|          | 1036/1500000 [50:50<1127:41:13,  2.71s/it]                                                             0%|          | 1036/1500000 [50:50<1127:41:13,  2.71s/it]{'loss': 1.5773, 'grad_norm': 0.9489397406578064, 'learning_rate': 2.066e-07, 'epoch': 1036.0}
  0%|          | 1037/1500000 [50:53<1144:01:05,  2.75s/it]                                                             0%|          | 1037/1500000 [50:53<1144:01:05,  2.75s/it]{'loss': 1.5804, 'grad_norm': 2.97885799407959, 'learning_rate': 2.068e-07, 'epoch': 1037.0}
  0%|          | 1038/1500000 [50:56<1133:16:54,  2.72s/it]                                                             0%|          | 1038/1500000 [50:56<1133:16:54,  2.72s/it]{'loss': 1.5712, 'grad_norm': 2.4349982738494873, 'learning_rate': 2.0700000000000001e-07, 'epoch': 1038.0}
  0%|          | 1039/1500000 [50:59<1126:11:49,  2.70s/it]                                                             0%|          | 1039/1500000 [50:59<1126:11:49,  2.70s/it]{'loss': 1.5758, 'grad_norm': 1.095255970954895, 'learning_rate': 2.072e-07, 'epoch': 1039.0}
  0%|          | 1040/1500000 [51:02<1150:53:23,  2.76s/it]                                                             0%|          | 1040/1500000 [51:02<1150:53:23,  2.76s/it]{'loss': 1.5709, 'grad_norm': 1.583194375038147, 'learning_rate': 2.074e-07, 'epoch': 1040.0}
  0%|          | 1041/1500000 [51:04<1128:52:18,  2.71s/it]                                                             0%|          | 1041/1500000 [51:04<1128:52:18,  2.71s/it]{'loss': 1.5672, 'grad_norm': 1.6994518041610718, 'learning_rate': 2.076e-07, 'epoch': 1041.0}
  0%|          | 1042/1500000 [51:07<1143:32:07,  2.75s/it]                                                             0%|          | 1042/1500000 [51:07<1143:32:07,  2.75s/it]{'loss': 1.5731, 'grad_norm': 1.1236746311187744, 'learning_rate': 2.0780000000000002e-07, 'epoch': 1042.0}
  0%|          | 1043/1500000 [51:10<1128:55:35,  2.71s/it]                                                             0%|          | 1043/1500000 [51:10<1128:55:35,  2.71s/it]{'loss': 1.5644, 'grad_norm': 6.768857002258301, 'learning_rate': 2.0799999999999998e-07, 'epoch': 1043.0}
  0%|          | 1044/1500000 [51:12<1106:37:54,  2.66s/it]                                                             0%|          | 1044/1500000 [51:12<1106:37:54,  2.66s/it]{'loss': 1.5749, 'grad_norm': 1.107519507408142, 'learning_rate': 2.082e-07, 'epoch': 1044.0}
  0%|          | 1045/1500000 [51:15<1101:36:57,  2.65s/it]                                                             0%|          | 1045/1500000 [51:15<1101:36:57,  2.65s/it]{'loss': 1.5628, 'grad_norm': 2.1311705112457275, 'learning_rate': 2.084e-07, 'epoch': 1045.0}
  0%|          | 1046/1500000 [51:18<1129:31:49,  2.71s/it]                                                             0%|          | 1046/1500000 [51:18<1129:31:49,  2.71s/it]{'loss': 1.5715, 'grad_norm': 1.3456166982650757, 'learning_rate': 2.086e-07, 'epoch': 1046.0}
  0%|          | 1047/1500000 [51:20<1112:31:01,  2.67s/it]                                                             0%|          | 1047/1500000 [51:20<1112:31:01,  2.67s/it]{'loss': 1.5679, 'grad_norm': 1.005059838294983, 'learning_rate': 2.0880000000000002e-07, 'epoch': 1047.0}
  0%|          | 1048/1500000 [51:23<1130:49:05,  2.72s/it]                                                             0%|          | 1048/1500000 [51:23<1130:49:05,  2.72s/it]{'loss': 1.5668, 'grad_norm': 1.5581361055374146, 'learning_rate': 2.09e-07, 'epoch': 1048.0}
  0%|          | 1049/1500000 [51:26<1143:06:02,  2.75s/it]                                                             0%|          | 1049/1500000 [51:26<1143:06:02,  2.75s/it]{'loss': 1.5665, 'grad_norm': 0.9271217584609985, 'learning_rate': 2.092e-07, 'epoch': 1049.0}
  0%|          | 1050/1500000 [51:28<1108:09:47,  2.66s/it]                                                             0%|          | 1050/1500000 [51:28<1108:09:47,  2.66s/it]{'loss': 1.5749, 'grad_norm': 8.531341552734375, 'learning_rate': 2.094e-07, 'epoch': 1050.0}
  0%|          | 1051/1500000 [51:31<1095:31:19,  2.63s/it]                                                             0%|          | 1051/1500000 [51:31<1095:31:19,  2.63s/it]{'loss': 1.5618, 'grad_norm': 1.0843509435653687, 'learning_rate': 2.0960000000000002e-07, 'epoch': 1051.0}
  0%|          | 1052/1500000 [51:33<1078:36:40,  2.59s/it]                                                             0%|          | 1052/1500000 [51:33<1078:36:40,  2.59s/it]{'loss': 1.5685, 'grad_norm': 3.8642165660858154, 'learning_rate': 2.098e-07, 'epoch': 1052.0}
  0%|          | 1053/1500000 [51:36<1074:07:56,  2.58s/it]                                                             0%|          | 1053/1500000 [51:36<1074:07:56,  2.58s/it]{'loss': 1.5627, 'grad_norm': 1.2413549423217773, 'learning_rate': 2.1e-07, 'epoch': 1053.0}
  0%|          | 1054/1500000 [51:38<1062:06:24,  2.55s/it]                                                             0%|          | 1054/1500000 [51:38<1062:06:24,  2.55s/it]{'loss': 1.5636, 'grad_norm': 1.2524449825286865, 'learning_rate': 2.102e-07, 'epoch': 1054.0}
  0%|          | 1055/1500000 [51:41<1079:40:23,  2.59s/it]                                                             0%|          | 1055/1500000 [51:41<1079:40:23,  2.59s/it]{'loss': 1.5645, 'grad_norm': 1.2952991724014282, 'learning_rate': 2.104e-07, 'epoch': 1055.0}
  0%|          | 1056/1500000 [51:44<1076:03:15,  2.58s/it]                                                             0%|          | 1056/1500000 [51:44<1076:03:15,  2.58s/it]{'loss': 1.5655, 'grad_norm': 1.4905788898468018, 'learning_rate': 2.1060000000000002e-07, 'epoch': 1056.0}
  0%|          | 1057/1500000 [51:46<1073:13:24,  2.58s/it]                                                             0%|          | 1057/1500000 [51:46<1073:13:24,  2.58s/it]{'loss': 1.5673, 'grad_norm': 1.1086138486862183, 'learning_rate': 2.1079999999999998e-07, 'epoch': 1057.0}
  0%|          | 1058/1500000 [51:49<1079:21:44,  2.59s/it]                                                             0%|          | 1058/1500000 [51:49<1079:21:44,  2.59s/it]{'loss': 1.5617, 'grad_norm': 6.657322883605957, 'learning_rate': 2.11e-07, 'epoch': 1058.0}
  0%|          | 1059/1500000 [51:51<1084:53:09,  2.61s/it]                                                             0%|          | 1059/1500000 [51:51<1084:53:09,  2.61s/it]{'loss': 1.564, 'grad_norm': 34.03983688354492, 'learning_rate': 2.112e-07, 'epoch': 1059.0}
  0%|          | 1060/1500000 [51:54<1084:24:52,  2.60s/it]                                                             0%|          | 1060/1500000 [51:54<1084:24:52,  2.60s/it]{'loss': 1.5608, 'grad_norm': 1.2597378492355347, 'learning_rate': 2.114e-07, 'epoch': 1060.0}
  0%|          | 1061/1500000 [51:57<1083:25:46,  2.60s/it]                                                             0%|          | 1061/1500000 [51:57<1083:25:46,  2.60s/it]{'loss': 1.5626, 'grad_norm': 1.1377840042114258, 'learning_rate': 2.1160000000000002e-07, 'epoch': 1061.0}
  0%|          | 1062/1500000 [51:59<1081:53:04,  2.60s/it]                                                             0%|          | 1062/1500000 [51:59<1081:53:04,  2.60s/it]{'loss': 1.5591, 'grad_norm': 1.9253413677215576, 'learning_rate': 2.118e-07, 'epoch': 1062.0}
  0%|          | 1063/1500000 [52:02<1073:52:58,  2.58s/it]                                                             0%|          | 1063/1500000 [52:02<1073:52:58,  2.58s/it]{'loss': 1.5539, 'grad_norm': 2.157513380050659, 'learning_rate': 2.12e-07, 'epoch': 1063.0}
  0%|          | 1064/1500000 [52:04<1076:26:29,  2.59s/it]                                                             0%|          | 1064/1500000 [52:04<1076:26:29,  2.59s/it]{'loss': 1.564, 'grad_norm': 1.3998243808746338, 'learning_rate': 2.122e-07, 'epoch': 1064.0}
  0%|          | 1065/1500000 [52:07<1068:08:24,  2.57s/it]                                                             0%|          | 1065/1500000 [52:07<1068:08:24,  2.57s/it]{'loss': 1.561, 'grad_norm': 1.0151389837265015, 'learning_rate': 2.1240000000000002e-07, 'epoch': 1065.0}
  0%|          | 1066/1500000 [52:10<1074:58:08,  2.58s/it]                                                             0%|          | 1066/1500000 [52:10<1074:58:08,  2.58s/it]{'loss': 1.5611, 'grad_norm': 1.3415422439575195, 'learning_rate': 2.126e-07, 'epoch': 1066.0}
  0%|          | 1067/1500000 [52:12<1075:32:09,  2.58s/it]                                                             0%|          | 1067/1500000 [52:12<1075:32:09,  2.58s/it]{'loss': 1.5573, 'grad_norm': 2.3141579627990723, 'learning_rate': 2.128e-07, 'epoch': 1067.0}
  0%|          | 1068/1500000 [52:15<1078:43:13,  2.59s/it]                                                             0%|          | 1068/1500000 [52:15<1078:43:13,  2.59s/it]{'loss': 1.5578, 'grad_norm': 0.9580351114273071, 'learning_rate': 2.1300000000000001e-07, 'epoch': 1068.0}
  0%|          | 1069/1500000 [52:17<1075:16:22,  2.58s/it]                                                             0%|          | 1069/1500000 [52:17<1075:16:22,  2.58s/it]{'loss': 1.5562, 'grad_norm': 1.0505666732788086, 'learning_rate': 2.132e-07, 'epoch': 1069.0}
  0%|          | 1070/1500000 [52:20<1077:47:56,  2.59s/it]                                                             0%|          | 1070/1500000 [52:20<1077:47:56,  2.59s/it]{'loss': 1.557, 'grad_norm': 1.6809712648391724, 'learning_rate': 2.1340000000000002e-07, 'epoch': 1070.0}
  0%|          | 1071/1500000 [52:22<1071:11:00,  2.57s/it]                                                             0%|          | 1071/1500000 [52:22<1071:11:00,  2.57s/it]{'loss': 1.5535, 'grad_norm': 3.6099202632904053, 'learning_rate': 2.1359999999999998e-07, 'epoch': 1071.0}
  0%|          | 1072/1500000 [52:25<1071:07:26,  2.57s/it]                                                             0%|          | 1072/1500000 [52:25<1071:07:26,  2.57s/it]{'loss': 1.5559, 'grad_norm': 5.737199783325195, 'learning_rate': 2.138e-07, 'epoch': 1072.0}
  0%|          | 1073/1500000 [52:28<1073:16:57,  2.58s/it]                                                             0%|          | 1073/1500000 [52:28<1073:16:57,  2.58s/it]{'loss': 1.5557, 'grad_norm': 1.131452202796936, 'learning_rate': 2.14e-07, 'epoch': 1073.0}
  0%|          | 1074/1500000 [52:30<1071:36:47,  2.57s/it]                                                             0%|          | 1074/1500000 [52:30<1071:36:47,  2.57s/it]{'loss': 1.551, 'grad_norm': 1.0757285356521606, 'learning_rate': 2.142e-07, 'epoch': 1074.0}
  0%|          | 1075/1500000 [52:33<1079:30:13,  2.59s/it]                                                             0%|          | 1075/1500000 [52:33<1079:30:13,  2.59s/it]{'loss': 1.5541, 'grad_norm': 1.316859245300293, 'learning_rate': 2.1440000000000001e-07, 'epoch': 1075.0}
  0%|          | 1076/1500000 [52:35<1069:19:48,  2.57s/it]                                                             0%|          | 1076/1500000 [52:35<1069:19:48,  2.57s/it]{'loss': 1.552, 'grad_norm': 6.291731357574463, 'learning_rate': 2.146e-07, 'epoch': 1076.0}
  0%|          | 1077/1500000 [52:38<1075:37:28,  2.58s/it]                                                             0%|          | 1077/1500000 [52:38<1075:37:28,  2.58s/it]{'loss': 1.5531, 'grad_norm': 0.980509340763092, 'learning_rate': 2.148e-07, 'epoch': 1077.0}
  0%|          | 1078/1500000 [52:41<1083:52:22,  2.60s/it]                                                             0%|          | 1078/1500000 [52:41<1083:52:22,  2.60s/it]{'loss': 1.5503, 'grad_norm': 1.1346079111099243, 'learning_rate': 2.15e-07, 'epoch': 1078.0}
  0%|          | 1079/1500000 [52:43<1079:26:11,  2.59s/it]                                                             0%|          | 1079/1500000 [52:43<1079:26:11,  2.59s/it]{'loss': 1.5571, 'grad_norm': 1.938717246055603, 'learning_rate': 2.1520000000000002e-07, 'epoch': 1079.0}
  0%|          | 1080/1500000 [52:46<1071:47:50,  2.57s/it]                                                             0%|          | 1080/1500000 [52:46<1071:47:50,  2.57s/it]{'loss': 1.5536, 'grad_norm': 1.836732268333435, 'learning_rate': 2.154e-07, 'epoch': 1080.0}
  0%|          | 1081/1500000 [52:49<1105:55:43,  2.66s/it]                                                             0%|          | 1081/1500000 [52:49<1105:55:43,  2.66s/it]{'loss': 1.5484, 'grad_norm': 1.5794588327407837, 'learning_rate': 2.156e-07, 'epoch': 1081.0}
  0%|          | 1082/1500000 [52:51<1126:49:51,  2.71s/it]                                                             0%|          | 1082/1500000 [52:51<1126:49:51,  2.71s/it]{'loss': 1.5477, 'grad_norm': 1.154757022857666, 'learning_rate': 2.1580000000000001e-07, 'epoch': 1082.0}
  0%|          | 1083/1500000 [52:54<1111:16:42,  2.67s/it]                                                             0%|          | 1083/1500000 [52:54<1111:16:42,  2.67s/it]{'loss': 1.5512, 'grad_norm': 1.6351189613342285, 'learning_rate': 2.16e-07, 'epoch': 1083.0}
  0%|          | 1084/1500000 [52:56<1098:49:38,  2.64s/it]                                                             0%|          | 1084/1500000 [52:57<1098:49:38,  2.64s/it]{'loss': 1.5461, 'grad_norm': 2.203552007675171, 'learning_rate': 2.1620000000000002e-07, 'epoch': 1084.0}
  0%|          | 1085/1500000 [52:59<1125:27:32,  2.70s/it]                                                             0%|          | 1085/1500000 [52:59<1125:27:32,  2.70s/it]{'loss': 1.5516, 'grad_norm': 1.813345193862915, 'learning_rate': 2.164e-07, 'epoch': 1085.0}
  0%|          | 1086/1500000 [53:02<1125:53:56,  2.70s/it]                                                             0%|          | 1086/1500000 [53:02<1125:53:56,  2.70s/it]{'loss': 1.5511, 'grad_norm': 0.8774526715278625, 'learning_rate': 2.166e-07, 'epoch': 1086.0}
  0%|          | 1087/1500000 [53:05<1104:57:19,  2.65s/it]                                                             0%|          | 1087/1500000 [53:05<1104:57:19,  2.65s/it]{'loss': 1.5443, 'grad_norm': 3.1274983882904053, 'learning_rate': 2.168e-07, 'epoch': 1087.0}
  0%|          | 1088/1500000 [53:07<1095:02:40,  2.63s/it]                                                             0%|          | 1088/1500000 [53:07<1095:02:40,  2.63s/it]{'loss': 1.5454, 'grad_norm': 3.257859945297241, 'learning_rate': 2.17e-07, 'epoch': 1088.0}
  0%|          | 1089/1500000 [53:10<1116:45:53,  2.68s/it]                                                             0%|          | 1089/1500000 [53:10<1116:45:53,  2.68s/it]{'loss': 1.5372, 'grad_norm': 5.167294979095459, 'learning_rate': 2.172e-07, 'epoch': 1089.0}
  0%|          | 1090/1500000 [53:12<1098:27:22,  2.64s/it]                                                             0%|          | 1090/1500000 [53:13<1098:27:22,  2.64s/it]{'loss': 1.5416, 'grad_norm': 1.0005639791488647, 'learning_rate': 2.174e-07, 'epoch': 1090.0}
  0%|          | 1091/1500000 [53:15<1079:50:13,  2.59s/it]                                                             0%|          | 1091/1500000 [53:15<1079:50:13,  2.59s/it]{'loss': 1.5441, 'grad_norm': 1.842504620552063, 'learning_rate': 2.176e-07, 'epoch': 1091.0}
  0%|          | 1092/1500000 [53:18<1080:22:11,  2.59s/it]                                                             0%|          | 1092/1500000 [53:18<1080:22:11,  2.59s/it]{'loss': 1.5359, 'grad_norm': 0.9027210474014282, 'learning_rate': 2.178e-07, 'epoch': 1092.0}
  0%|          | 1093/1500000 [53:20<1083:57:07,  2.60s/it]                                                             0%|          | 1093/1500000 [53:20<1083:57:07,  2.60s/it]{'loss': 1.5467, 'grad_norm': 1.4683235883712769, 'learning_rate': 2.1800000000000002e-07, 'epoch': 1093.0}
  0%|          | 1094/1500000 [53:23<1075:32:27,  2.58s/it]                                                             0%|          | 1094/1500000 [53:23<1075:32:27,  2.58s/it]{'loss': 1.5436, 'grad_norm': 0.9885283708572388, 'learning_rate': 2.182e-07, 'epoch': 1094.0}
  0%|          | 1095/1500000 [53:26<1103:40:51,  2.65s/it]                                                             0%|          | 1095/1500000 [53:26<1103:40:51,  2.65s/it]{'loss': 1.5419, 'grad_norm': 1.3684940338134766, 'learning_rate': 2.184e-07, 'epoch': 1095.0}
  0%|          | 1096/1500000 [53:28<1131:20:53,  2.72s/it]                                                             0%|          | 1096/1500000 [53:28<1131:20:53,  2.72s/it]{'loss': 1.54, 'grad_norm': 0.9934016466140747, 'learning_rate': 2.186e-07, 'epoch': 1096.0}
  0%|          | 1097/1500000 [53:31<1157:56:46,  2.78s/it]                                                             0%|          | 1097/1500000 [53:31<1157:56:46,  2.78s/it]{'loss': 1.5404, 'grad_norm': 1.8801573514938354, 'learning_rate': 2.188e-07, 'epoch': 1097.0}
  0%|          | 1098/1500000 [53:34<1144:20:12,  2.75s/it]                                                             0%|          | 1098/1500000 [53:34<1144:20:12,  2.75s/it]{'loss': 1.5412, 'grad_norm': 1.0297327041625977, 'learning_rate': 2.1900000000000002e-07, 'epoch': 1098.0}
  0%|          | 1099/1500000 [53:37<1123:53:40,  2.70s/it]                                                             0%|          | 1099/1500000 [53:37<1123:53:40,  2.70s/it]{'loss': 1.5419, 'grad_norm': 1.1018619537353516, 'learning_rate': 2.192e-07, 'epoch': 1099.0}
  0%|          | 1100/1500000 [53:39<1096:55:12,  2.63s/it]                                                             0%|          | 1100/1500000 [53:39<1096:55:12,  2.63s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.5454, 'grad_norm': 4.425602912902832, 'learning_rate': 2.194e-07, 'epoch': 1100.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.33it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.19s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.26s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.48s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.39s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.03s/it][A                                                           
                                             [A  0%|          | 1100/1500000 [54:20<1096:55:12,  2.63s/it]
100%|██████████| 7/7 [00:08<00:00,  1.03s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-900] due to args.save_total_limit
{'eval_loss': 3.433760166168213, 'eval_wer': 0.9996560421921578, 'eval_cer': 0.9915312316428432, 'eval_runtime': 14.4715, 'eval_samples_per_second': 67.927, 'eval_steps_per_second': 0.484, 'epoch': 1100.0}
  0%|          | 1101/1500000 [54:36<7929:59:23, 19.05s/it]                                                             0%|          | 1101/1500000 [54:36<7929:59:23, 19.05s/it]{'loss': 1.5389, 'grad_norm': 2.0684120655059814, 'learning_rate': 2.196e-07, 'epoch': 1101.0}
  0%|          | 1102/1500000 [54:39<5868:06:18, 14.09s/it]                                                             0%|          | 1102/1500000 [54:39<5868:06:18, 14.09s/it]{'loss': 1.5367, 'grad_norm': 2.314483642578125, 'learning_rate': 2.1980000000000002e-07, 'epoch': 1102.0}
  0%|          | 1103/1500000 [54:42<4436:27:40, 10.66s/it]                                                             0%|          | 1103/1500000 [54:42<4436:27:40, 10.66s/it]{'loss': 1.5385, 'grad_norm': 0.9314737915992737, 'learning_rate': 2.2e-07, 'epoch': 1103.0}
  0%|          | 1104/1500000 [54:44<3450:03:39,  8.29s/it]                                                             0%|          | 1104/1500000 [54:44<3450:03:39,  8.29s/it]{'loss': 1.5346, 'grad_norm': 1.7978326082229614, 'learning_rate': 2.202e-07, 'epoch': 1104.0}
  0%|          | 1105/1500000 [54:47<2741:58:20,  6.59s/it]                                                             0%|          | 1105/1500000 [54:47<2741:58:20,  6.59s/it]{'loss': 1.5422, 'grad_norm': 2.0020499229431152, 'learning_rate': 2.204e-07, 'epoch': 1105.0}
  0%|          | 1106/1500000 [54:50<2273:21:05,  5.46s/it]                                                             0%|          | 1106/1500000 [54:50<2273:21:05,  5.46s/it]{'loss': 1.5328, 'grad_norm': 1.979423999786377, 'learning_rate': 2.206e-07, 'epoch': 1106.0}
  0%|          | 1107/1500000 [54:53<1947:27:09,  4.68s/it]                                                             0%|          | 1107/1500000 [54:53<1947:27:09,  4.68s/it]{'loss': 1.5368, 'grad_norm': 11.821233749389648, 'learning_rate': 2.2080000000000002e-07, 'epoch': 1107.0}
  0%|          | 1108/1500000 [54:55<1678:28:16,  4.03s/it]                                                             0%|          | 1108/1500000 [54:55<1678:28:16,  4.03s/it]{'loss': 1.5321, 'grad_norm': 1.0804791450500488, 'learning_rate': 2.21e-07, 'epoch': 1108.0}
  0%|          | 1109/1500000 [54:58<1496:44:27,  3.59s/it]                                                             0%|          | 1109/1500000 [54:58<1496:44:27,  3.59s/it]{'loss': 1.5372, 'grad_norm': 0.9407891631126404, 'learning_rate': 2.212e-07, 'epoch': 1109.0}
  0%|          | 1110/1500000 [55:00<1362:19:42,  3.27s/it]                                                             0%|          | 1110/1500000 [55:00<1362:19:42,  3.27s/it]{'loss': 1.5293, 'grad_norm': 1.4676496982574463, 'learning_rate': 2.214e-07, 'epoch': 1110.0}
  0%|          | 1111/1500000 [55:03<1270:56:01,  3.05s/it]                                                             0%|          | 1111/1500000 [55:03<1270:56:01,  3.05s/it]{'loss': 1.5266, 'grad_norm': 5.199897289276123, 'learning_rate': 2.216e-07, 'epoch': 1111.0}
  0%|          | 1112/1500000 [55:05<1213:54:02,  2.92s/it]                                                             0%|          | 1112/1500000 [55:05<1213:54:02,  2.92s/it]{'loss': 1.5344, 'grad_norm': 1.731113314628601, 'learning_rate': 2.2180000000000001e-07, 'epoch': 1112.0}
  0%|          | 1113/1500000 [55:08<1205:20:19,  2.89s/it]                                                             0%|          | 1113/1500000 [55:08<1205:20:19,  2.89s/it]{'loss': 1.5285, 'grad_norm': 1.2261730432510376, 'learning_rate': 2.22e-07, 'epoch': 1113.0}
  0%|          | 1114/1500000 [55:11<1163:37:47,  2.79s/it]                                                             0%|          | 1114/1500000 [55:11<1163:37:47,  2.79s/it]{'loss': 1.5337, 'grad_norm': 1.0714954137802124, 'learning_rate': 2.222e-07, 'epoch': 1114.0}
  0%|          | 1115/1500000 [55:13<1134:17:01,  2.72s/it]                                                             0%|          | 1115/1500000 [55:13<1134:17:01,  2.72s/it]{'loss': 1.5334, 'grad_norm': 0.9487708210945129, 'learning_rate': 2.224e-07, 'epoch': 1115.0}
  0%|          | 1116/1500000 [55:16<1115:38:32,  2.68s/it]                                                             0%|          | 1116/1500000 [55:16<1115:38:32,  2.68s/it]{'loss': 1.5341, 'grad_norm': 1.1436257362365723, 'learning_rate': 2.2260000000000002e-07, 'epoch': 1116.0}
  0%|          | 1117/1500000 [55:19<1101:15:14,  2.64s/it]                                                             0%|          | 1117/1500000 [55:19<1101:15:14,  2.64s/it]{'loss': 1.5197, 'grad_norm': 1.5266507863998413, 'learning_rate': 2.228e-07, 'epoch': 1117.0}
  0%|          | 1118/1500000 [55:21<1135:10:59,  2.73s/it]                                                             0%|          | 1118/1500000 [55:21<1135:10:59,  2.73s/it]{'loss': 1.5259, 'grad_norm': 1.2214423418045044, 'learning_rate': 2.23e-07, 'epoch': 1118.0}
  0%|          | 1119/1500000 [55:24<1102:15:51,  2.65s/it]                                                             0%|          | 1119/1500000 [55:24<1102:15:51,  2.65s/it]{'loss': 1.524, 'grad_norm': 1.1278759241104126, 'learning_rate': 2.2320000000000001e-07, 'epoch': 1119.0}
  0%|          | 1120/1500000 [55:26<1093:07:45,  2.63s/it]                                                             0%|          | 1120/1500000 [55:26<1093:07:45,  2.63s/it]{'loss': 1.5255, 'grad_norm': 4.100625514984131, 'learning_rate': 2.234e-07, 'epoch': 1120.0}
  0%|          | 1121/1500000 [55:29<1087:45:30,  2.61s/it]                                                             0%|          | 1121/1500000 [55:29<1087:45:30,  2.61s/it]{'loss': 1.5136, 'grad_norm': 1.722167730331421, 'learning_rate': 2.2360000000000002e-07, 'epoch': 1121.0}
  0%|          | 1122/1500000 [55:32<1081:37:31,  2.60s/it]                                                             0%|          | 1122/1500000 [55:32<1081:37:31,  2.60s/it]{'loss': 1.5232, 'grad_norm': 0.8874559998512268, 'learning_rate': 2.238e-07, 'epoch': 1122.0}
  0%|          | 1123/1500000 [55:34<1085:18:56,  2.61s/it]                                                             0%|          | 1123/1500000 [55:34<1085:18:56,  2.61s/it]{'loss': 1.525, 'grad_norm': 1.1618391275405884, 'learning_rate': 2.24e-07, 'epoch': 1123.0}
  0%|          | 1124/1500000 [55:37<1144:54:52,  2.75s/it]                                                             0%|          | 1124/1500000 [55:37<1144:54:52,  2.75s/it]{'loss': 1.5222, 'grad_norm': 1.0474351644515991, 'learning_rate': 2.242e-07, 'epoch': 1124.0}
  0%|          | 1125/1500000 [55:40<1116:43:10,  2.68s/it]                                                             0%|          | 1125/1500000 [55:40<1116:43:10,  2.68s/it]{'loss': 1.5239, 'grad_norm': 2.427875518798828, 'learning_rate': 2.244e-07, 'epoch': 1125.0}
  0%|          | 1126/1500000 [55:42<1101:55:56,  2.65s/it]                                                             0%|          | 1126/1500000 [55:42<1101:55:56,  2.65s/it]{'loss': 1.5265, 'grad_norm': 1.1913461685180664, 'learning_rate': 2.246e-07, 'epoch': 1126.0}
  0%|          | 1127/1500000 [55:45<1096:09:29,  2.63s/it]                                                             0%|          | 1127/1500000 [55:45<1096:09:29,  2.63s/it]{'loss': 1.5192, 'grad_norm': 1.2148966789245605, 'learning_rate': 2.248e-07, 'epoch': 1127.0}
  0%|          | 1128/1500000 [55:48<1082:43:02,  2.60s/it]                                                             0%|          | 1128/1500000 [55:48<1082:43:02,  2.60s/it]{'loss': 1.5265, 'grad_norm': 1.4650059938430786, 'learning_rate': 2.25e-07, 'epoch': 1128.0}
  0%|          | 1129/1500000 [55:50<1077:02:07,  2.59s/it]                                                             0%|          | 1129/1500000 [55:50<1077:02:07,  2.59s/it]{'loss': 1.5169, 'grad_norm': 2.8552346229553223, 'learning_rate': 2.252e-07, 'epoch': 1129.0}
  0%|          | 1130/1500000 [55:53<1072:19:32,  2.58s/it]                                                             0%|          | 1130/1500000 [55:53<1072:19:32,  2.58s/it]{'loss': 1.5212, 'grad_norm': 1.416962742805481, 'learning_rate': 2.2540000000000002e-07, 'epoch': 1130.0}
  0%|          | 1131/1500000 [55:55<1097:51:47,  2.64s/it]                                                             0%|          | 1131/1500000 [55:55<1097:51:47,  2.64s/it]{'loss': 1.5201, 'grad_norm': 1.3764729499816895, 'learning_rate': 2.256e-07, 'epoch': 1131.0}
  0%|          | 1132/1500000 [55:58<1091:12:19,  2.62s/it]                                                             0%|          | 1132/1500000 [55:58<1091:12:19,  2.62s/it]{'loss': 1.5201, 'grad_norm': 1.660549521446228, 'learning_rate': 2.258e-07, 'epoch': 1132.0}
  0%|          | 1133/1500000 [56:01<1089:00:15,  2.62s/it]                                                             0%|          | 1133/1500000 [56:01<1089:00:15,  2.62s/it]{'loss': 1.5183, 'grad_norm': 1.0104050636291504, 'learning_rate': 2.26e-07, 'epoch': 1133.0}
  0%|          | 1134/1500000 [56:03<1112:57:46,  2.67s/it]                                                             0%|          | 1134/1500000 [56:03<1112:57:46,  2.67s/it]{'loss': 1.5272, 'grad_norm': 1.098063349723816, 'learning_rate': 2.262e-07, 'epoch': 1134.0}
  0%|          | 1135/1500000 [56:06<1153:13:58,  2.77s/it]                                                             0%|          | 1135/1500000 [56:06<1153:13:58,  2.77s/it]{'loss': 1.5203, 'grad_norm': 0.983318567276001, 'learning_rate': 2.2640000000000002e-07, 'epoch': 1135.0}
  0%|          | 1136/1500000 [56:09<1134:43:06,  2.73s/it]                                                             0%|          | 1136/1500000 [56:09<1134:43:06,  2.73s/it]{'loss': 1.5184, 'grad_norm': 1.10080087184906, 'learning_rate': 2.266e-07, 'epoch': 1136.0}
  0%|          | 1137/1500000 [56:12<1113:29:17,  2.67s/it]                                                             0%|          | 1137/1500000 [56:12<1113:29:17,  2.67s/it]{'loss': 1.5165, 'grad_norm': 1.1225383281707764, 'learning_rate': 2.268e-07, 'epoch': 1137.0}
  0%|          | 1138/1500000 [56:14<1100:29:02,  2.64s/it]                                                             0%|          | 1138/1500000 [56:14<1100:29:02,  2.64s/it]{'loss': 1.5133, 'grad_norm': 1.287318468093872, 'learning_rate': 2.27e-07, 'epoch': 1138.0}
  0%|          | 1139/1500000 [56:17<1126:04:52,  2.70s/it]                                                             0%|          | 1139/1500000 [56:17<1126:04:52,  2.70s/it]{'loss': 1.5631, 'grad_norm': 2.2669174671173096, 'learning_rate': 2.272e-07, 'epoch': 1139.0}
  0%|          | 1140/1500000 [56:20<1149:29:42,  2.76s/it]                                                             0%|          | 1140/1500000 [56:20<1149:29:42,  2.76s/it]{'loss': 1.5127, 'grad_norm': 2.1551573276519775, 'learning_rate': 2.274e-07, 'epoch': 1140.0}
  0%|          | 1141/1500000 [56:23<1134:58:12,  2.73s/it]                                                             0%|          | 1141/1500000 [56:23<1134:58:12,  2.73s/it]{'loss': 1.5142, 'grad_norm': 3.0486481189727783, 'learning_rate': 2.276e-07, 'epoch': 1141.0}
  0%|          | 1142/1500000 [56:25<1121:04:02,  2.69s/it]                                                             0%|          | 1142/1500000 [56:25<1121:04:02,  2.69s/it]{'loss': 1.5085, 'grad_norm': 1.2149111032485962, 'learning_rate': 2.278e-07, 'epoch': 1142.0}
  0%|          | 1143/1500000 [56:28<1116:58:58,  2.68s/it]                                                             0%|          | 1143/1500000 [56:28<1116:58:58,  2.68s/it]{'loss': 1.5094, 'grad_norm': 1.2345161437988281, 'learning_rate': 2.28e-07, 'epoch': 1143.0}
  0%|          | 1144/1500000 [56:31<1117:20:29,  2.68s/it]                                                             0%|          | 1144/1500000 [56:31<1117:20:29,  2.68s/it]{'loss': 1.5095, 'grad_norm': 1.4079383611679077, 'learning_rate': 2.2820000000000002e-07, 'epoch': 1144.0}
  0%|          | 1145/1500000 [56:33<1107:10:04,  2.66s/it]                                                             0%|          | 1145/1500000 [56:33<1107:10:04,  2.66s/it]{'loss': 1.5094, 'grad_norm': 1.0601110458374023, 'learning_rate': 2.284e-07, 'epoch': 1145.0}
  0%|          | 1146/1500000 [56:36<1100:53:20,  2.64s/it]                                                             0%|          | 1146/1500000 [56:36<1100:53:20,  2.64s/it]{'loss': 1.5073, 'grad_norm': 1.5601636171340942, 'learning_rate': 2.286e-07, 'epoch': 1146.0}
  0%|          | 1147/1500000 [56:38<1092:29:36,  2.62s/it]                                                             0%|          | 1147/1500000 [56:38<1092:29:36,  2.62s/it]{'loss': 1.508, 'grad_norm': 0.9413530230522156, 'learning_rate': 2.288e-07, 'epoch': 1147.0}
  0%|          | 1148/1500000 [56:41<1081:46:02,  2.60s/it]                                                             0%|          | 1148/1500000 [56:41<1081:46:02,  2.60s/it]{'loss': 1.5115, 'grad_norm': 1.9862414598464966, 'learning_rate': 2.29e-07, 'epoch': 1148.0}
  0%|          | 1149/1500000 [56:43<1081:43:32,  2.60s/it]                                                             0%|          | 1149/1500000 [56:43<1081:43:32,  2.60s/it]{'loss': 1.5031, 'grad_norm': 1.4004015922546387, 'learning_rate': 2.2920000000000001e-07, 'epoch': 1149.0}
  0%|          | 1150/1500000 [56:46<1077:08:40,  2.59s/it]                                                             0%|          | 1150/1500000 [56:46<1077:08:40,  2.59s/it]{'loss': 1.5058, 'grad_norm': 1.7268661260604858, 'learning_rate': 2.2940000000000003e-07, 'epoch': 1150.0}
  0%|          | 1151/1500000 [56:49<1106:15:52,  2.66s/it]                                                             0%|          | 1151/1500000 [56:49<1106:15:52,  2.66s/it]{'loss': 1.504, 'grad_norm': 3.6874711513519287, 'learning_rate': 2.296e-07, 'epoch': 1151.0}
  0%|          | 1152/1500000 [56:51<1098:15:11,  2.64s/it]                                                             0%|          | 1152/1500000 [56:51<1098:15:11,  2.64s/it]{'loss': 1.4981, 'grad_norm': 2.4917056560516357, 'learning_rate': 2.298e-07, 'epoch': 1152.0}
  0%|          | 1153/1500000 [56:54<1090:12:41,  2.62s/it]                                                             0%|          | 1153/1500000 [56:54<1090:12:41,  2.62s/it]{'loss': 1.5051, 'grad_norm': 0.9904977679252625, 'learning_rate': 2.3e-07, 'epoch': 1153.0}
  0%|          | 1154/1500000 [56:57<1089:28:38,  2.62s/it]                                                             0%|          | 1154/1500000 [56:57<1089:28:38,  2.62s/it]{'loss': 1.503, 'grad_norm': 10.211596488952637, 'learning_rate': 2.302e-07, 'epoch': 1154.0}
  0%|          | 1155/1500000 [56:59<1086:42:16,  2.61s/it]                                                             0%|          | 1155/1500000 [56:59<1086:42:16,  2.61s/it]{'loss': 1.5118, 'grad_norm': 1.2848201990127563, 'learning_rate': 2.304e-07, 'epoch': 1155.0}
  0%|          | 1156/1500000 [57:02<1118:59:08,  2.69s/it]                                                             0%|          | 1156/1500000 [57:02<1118:59:08,  2.69s/it]{'loss': 1.5053, 'grad_norm': 1.0084559917449951, 'learning_rate': 2.306e-07, 'epoch': 1156.0}
  0%|          | 1157/1500000 [57:05<1109:13:30,  2.66s/it]                                                             0%|          | 1157/1500000 [57:05<1109:13:30,  2.66s/it]{'loss': 1.4979, 'grad_norm': 1.4331504106521606, 'learning_rate': 2.308e-07, 'epoch': 1157.0}
  0%|          | 1158/1500000 [57:07<1098:07:45,  2.64s/it]                                                             0%|          | 1158/1500000 [57:07<1098:07:45,  2.64s/it]{'loss': 1.5062, 'grad_norm': 1.7709885835647583, 'learning_rate': 2.3100000000000002e-07, 'epoch': 1158.0}
  0%|          | 1159/1500000 [57:10<1092:48:20,  2.62s/it]                                                             0%|          | 1159/1500000 [57:10<1092:48:20,  2.62s/it]{'loss': 1.5055, 'grad_norm': 3.8297171592712402, 'learning_rate': 2.312e-07, 'epoch': 1159.0}
  0%|          | 1160/1500000 [57:12<1090:18:33,  2.62s/it]                                                             0%|          | 1160/1500000 [57:12<1090:18:33,  2.62s/it]{'loss': 1.4975, 'grad_norm': 1.1561232805252075, 'learning_rate': 2.314e-07, 'epoch': 1160.0}
  0%|          | 1161/1500000 [57:15<1115:46:14,  2.68s/it]                                                             0%|          | 1161/1500000 [57:15<1115:46:14,  2.68s/it]{'loss': 1.4943, 'grad_norm': 0.9820606708526611, 'learning_rate': 2.316e-07, 'epoch': 1161.0}
  0%|          | 1162/1500000 [57:18<1102:56:21,  2.65s/it]                                                             0%|          | 1162/1500000 [57:18<1102:56:21,  2.65s/it]{'loss': 1.5065, 'grad_norm': 4.663028240203857, 'learning_rate': 2.318e-07, 'epoch': 1162.0}
  0%|          | 1163/1500000 [57:21<1129:50:46,  2.71s/it]                                                             0%|          | 1163/1500000 [57:21<1129:50:46,  2.71s/it]{'loss': 1.496, 'grad_norm': 2.2485620975494385, 'learning_rate': 2.32e-07, 'epoch': 1163.0}
  0%|          | 1164/1500000 [57:23<1104:47:35,  2.65s/it]                                                             0%|          | 1164/1500000 [57:23<1104:47:35,  2.65s/it]{'loss': 1.4974, 'grad_norm': 4.504161834716797, 'learning_rate': 2.3220000000000003e-07, 'epoch': 1164.0}
  0%|          | 1165/1500000 [57:26<1091:43:44,  2.62s/it]                                                             0%|          | 1165/1500000 [57:26<1091:43:44,  2.62s/it]{'loss': 1.4991, 'grad_norm': 1.2903828620910645, 'learning_rate': 2.324e-07, 'epoch': 1165.0}
  0%|          | 1166/1500000 [57:28<1076:04:04,  2.58s/it]                                                             0%|          | 1166/1500000 [57:28<1076:04:04,  2.58s/it]{'loss': 1.4945, 'grad_norm': 9.686352729797363, 'learning_rate': 2.326e-07, 'epoch': 1166.0}
  0%|          | 1167/1500000 [57:31<1073:06:22,  2.58s/it]                                                             0%|          | 1167/1500000 [57:31<1073:06:22,  2.58s/it]{'loss': 1.4954, 'grad_norm': 1.6598219871520996, 'learning_rate': 2.3280000000000002e-07, 'epoch': 1167.0}
  0%|          | 1168/1500000 [57:34<1105:25:07,  2.66s/it]                                                             0%|          | 1168/1500000 [57:34<1105:25:07,  2.66s/it]{'loss': 1.4954, 'grad_norm': 6.651401996612549, 'learning_rate': 2.33e-07, 'epoch': 1168.0}
  0%|          | 1169/1500000 [57:36<1093:48:47,  2.63s/it]                                                             0%|          | 1169/1500000 [57:36<1093:48:47,  2.63s/it]{'loss': 1.5014, 'grad_norm': 4.727725982666016, 'learning_rate': 2.3320000000000002e-07, 'epoch': 1169.0}
  0%|          | 1170/1500000 [57:39<1092:52:11,  2.62s/it]                                                             0%|          | 1170/1500000 [57:39<1092:52:11,  2.62s/it]{'loss': 1.4928, 'grad_norm': 1.0442619323730469, 'learning_rate': 2.3339999999999999e-07, 'epoch': 1170.0}
  0%|          | 1171/1500000 [57:42<1120:45:43,  2.69s/it]                                                             0%|          | 1171/1500000 [57:42<1120:45:43,  2.69s/it]{'loss': 1.4992, 'grad_norm': 1.0222713947296143, 'learning_rate': 2.336e-07, 'epoch': 1171.0}
  0%|          | 1172/1500000 [57:44<1103:45:15,  2.65s/it]                                                             0%|          | 1172/1500000 [57:44<1103:45:15,  2.65s/it]{'loss': 1.4864, 'grad_norm': 1.0612164735794067, 'learning_rate': 2.3380000000000002e-07, 'epoch': 1172.0}
  0%|          | 1173/1500000 [57:47<1099:06:02,  2.64s/it]                                                             0%|          | 1173/1500000 [57:47<1099:06:02,  2.64s/it]{'loss': 1.4911, 'grad_norm': 3.378951072692871, 'learning_rate': 2.34e-07, 'epoch': 1173.0}
  0%|          | 1174/1500000 [57:49<1091:45:29,  2.62s/it]                                                             0%|          | 1174/1500000 [57:49<1091:45:29,  2.62s/it]{'loss': 1.4992, 'grad_norm': 1.5268210172653198, 'learning_rate': 2.342e-07, 'epoch': 1174.0}
  0%|          | 1175/1500000 [57:52<1093:21:49,  2.63s/it]                                                             0%|          | 1175/1500000 [57:52<1093:21:49,  2.63s/it]{'loss': 1.4935, 'grad_norm': 1.2735049724578857, 'learning_rate': 2.344e-07, 'epoch': 1175.0}
  0%|          | 1176/1500000 [57:55<1079:57:07,  2.59s/it]                                                             0%|          | 1176/1500000 [57:55<1079:57:07,  2.59s/it]{'loss': 1.4962, 'grad_norm': 1.046233892440796, 'learning_rate': 2.3460000000000002e-07, 'epoch': 1176.0}
  0%|          | 1177/1500000 [57:57<1084:36:48,  2.61s/it]                                                             0%|          | 1177/1500000 [57:57<1084:36:48,  2.61s/it]{'loss': 1.4945, 'grad_norm': 1.5591392517089844, 'learning_rate': 2.3479999999999998e-07, 'epoch': 1177.0}
  0%|          | 1178/1500000 [58:00<1086:19:00,  2.61s/it]                                                             0%|          | 1178/1500000 [58:00<1086:19:00,  2.61s/it]{'loss': 1.4882, 'grad_norm': 1.477293610572815, 'learning_rate': 2.35e-07, 'epoch': 1178.0}
  0%|          | 1179/1500000 [58:02<1088:51:10,  2.62s/it]                                                             0%|          | 1179/1500000 [58:02<1088:51:10,  2.62s/it]{'loss': 1.4875, 'grad_norm': 17.004459381103516, 'learning_rate': 2.352e-07, 'epoch': 1179.0}
  0%|          | 1180/1500000 [58:06<1156:03:27,  2.78s/it]                                                             0%|          | 1180/1500000 [58:06<1156:03:27,  2.78s/it]{'loss': 1.4883, 'grad_norm': 2.087245225906372, 'learning_rate': 2.354e-07, 'epoch': 1180.0}
  0%|          | 1181/1500000 [58:08<1134:48:13,  2.73s/it]                                                             0%|          | 1181/1500000 [58:08<1134:48:13,  2.73s/it]{'loss': 1.4854, 'grad_norm': 1.5096577405929565, 'learning_rate': 2.3560000000000002e-07, 'epoch': 1181.0}
  0%|          | 1182/1500000 [58:11<1146:18:59,  2.75s/it]                                                             0%|          | 1182/1500000 [58:11<1146:18:59,  2.75s/it]{'loss': 1.4838, 'grad_norm': 0.8616361021995544, 'learning_rate': 2.3580000000000003e-07, 'epoch': 1182.0}
  0%|          | 1183/1500000 [58:14<1149:37:24,  2.76s/it]                                                             0%|          | 1183/1500000 [58:14<1149:37:24,  2.76s/it]{'loss': 1.4934, 'grad_norm': 3.411722183227539, 'learning_rate': 2.36e-07, 'epoch': 1183.0}
  0%|          | 1184/1500000 [58:16<1122:28:19,  2.70s/it]                                                             0%|          | 1184/1500000 [58:16<1122:28:19,  2.70s/it]{'loss': 1.4894, 'grad_norm': 1.1450294256210327, 'learning_rate': 2.3619999999999998e-07, 'epoch': 1184.0}
  0%|          | 1185/1500000 [58:19<1104:07:57,  2.65s/it]                                                             0%|          | 1185/1500000 [58:19<1104:07:57,  2.65s/it]{'loss': 1.4871, 'grad_norm': 3.145796775817871, 'learning_rate': 2.364e-07, 'epoch': 1185.0}
  0%|          | 1186/1500000 [58:22<1094:19:32,  2.63s/it]                                                             0%|          | 1186/1500000 [58:22<1094:19:32,  2.63s/it]{'loss': 1.4898, 'grad_norm': 4.911600112915039, 'learning_rate': 2.3660000000000001e-07, 'epoch': 1186.0}
  0%|          | 1187/1500000 [58:24<1093:07:26,  2.63s/it]                                                             0%|          | 1187/1500000 [58:24<1093:07:26,  2.63s/it]{'loss': 1.494, 'grad_norm': 1.2861820459365845, 'learning_rate': 2.3680000000000003e-07, 'epoch': 1187.0}
  0%|          | 1188/1500000 [58:27<1124:18:45,  2.70s/it]                                                             0%|          | 1188/1500000 [58:27<1124:18:45,  2.70s/it]{'loss': 1.4868, 'grad_norm': 1.284029245376587, 'learning_rate': 2.3700000000000002e-07, 'epoch': 1188.0}
  0%|          | 1189/1500000 [58:30<1110:14:59,  2.67s/it]                                                             0%|          | 1189/1500000 [58:30<1110:14:59,  2.67s/it]{'loss': 1.4832, 'grad_norm': 1.9776102304458618, 'learning_rate': 2.3719999999999998e-07, 'epoch': 1189.0}
  0%|          | 1190/1500000 [58:32<1097:50:35,  2.64s/it]                                                             0%|          | 1190/1500000 [58:32<1097:50:35,  2.64s/it]{'loss': 1.4902, 'grad_norm': 5.889369487762451, 'learning_rate': 2.374e-07, 'epoch': 1190.0}
  0%|          | 1191/1500000 [58:35<1130:17:41,  2.71s/it]                                                             0%|          | 1191/1500000 [58:35<1130:17:41,  2.71s/it]{'loss': 1.4815, 'grad_norm': 5.9072136878967285, 'learning_rate': 2.376e-07, 'epoch': 1191.0}
  0%|          | 1192/1500000 [58:38<1156:26:10,  2.78s/it]                                                             0%|          | 1192/1500000 [58:38<1156:26:10,  2.78s/it]{'loss': 1.4888, 'grad_norm': 9.919622421264648, 'learning_rate': 2.3780000000000003e-07, 'epoch': 1192.0}
  0%|          | 1193/1500000 [58:41<1131:39:09,  2.72s/it]                                                             0%|          | 1193/1500000 [58:41<1131:39:09,  2.72s/it]{'loss': 1.4829, 'grad_norm': 1.6345232725143433, 'learning_rate': 2.3800000000000001e-07, 'epoch': 1193.0}
  0%|          | 1194/1500000 [58:43<1153:06:53,  2.77s/it]                                                             0%|          | 1194/1500000 [58:43<1153:06:53,  2.77s/it]{'loss': 1.4787, 'grad_norm': 0.9698986411094666, 'learning_rate': 2.3819999999999998e-07, 'epoch': 1194.0}
  0%|          | 1195/1500000 [58:46<1134:13:49,  2.72s/it]                                                             0%|          | 1195/1500000 [58:46<1134:13:49,  2.72s/it]{'loss': 1.4798, 'grad_norm': 1.4967693090438843, 'learning_rate': 2.384e-07, 'epoch': 1195.0}
  0%|          | 1196/1500000 [58:49<1137:04:53,  2.73s/it]                                                             0%|          | 1196/1500000 [58:49<1137:04:53,  2.73s/it]{'loss': 1.4811, 'grad_norm': 1.0502572059631348, 'learning_rate': 2.386e-07, 'epoch': 1196.0}
  0%|          | 1197/1500000 [58:51<1115:07:25,  2.68s/it]                                                             0%|          | 1197/1500000 [58:51<1115:07:25,  2.68s/it]{'loss': 1.4765, 'grad_norm': 1.1931427717208862, 'learning_rate': 2.388e-07, 'epoch': 1197.0}
  0%|          | 1198/1500000 [58:55<1181:08:45,  2.84s/it]                                                             0%|          | 1198/1500000 [58:55<1181:08:45,  2.84s/it]{'loss': 1.4767, 'grad_norm': 1.0929659605026245, 'learning_rate': 2.39e-07, 'epoch': 1198.0}
  0%|          | 1199/1500000 [58:57<1185:12:25,  2.85s/it]                                                             0%|          | 1199/1500000 [58:57<1185:12:25,  2.85s/it]{'loss': 1.4864, 'grad_norm': 1.1267564296722412, 'learning_rate': 2.392e-07, 'epoch': 1199.0}
  0%|          | 1200/1500000 [59:00<1149:37:19,  2.76s/it]                                                             0%|          | 1200/1500000 [59:00<1149:37:19,  2.76s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.4837, 'grad_norm': 1.35901939868927, 'learning_rate': 2.394e-07, 'epoch': 1200.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.56it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.12s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.41s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.49s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.45s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A                                                           
                                             [A  0%|          | 1200/1500000 [59:41<1149:37:19,  2.76s/it]
100%|██████████| 7/7 [00:08<00:00,  1.10s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1000] due to args.save_total_limit
{'eval_loss': 3.431535005569458, 'eval_wer': 0.9996560421921578, 'eval_cer': 0.977457411396123, 'eval_runtime': 15.123, 'eval_samples_per_second': 65.0, 'eval_steps_per_second': 0.463, 'epoch': 1200.0}
  0%|          | 1201/1500000 [59:55<7658:30:20, 18.40s/it]                                                             0%|          | 1201/1500000 [59:55<7658:30:20, 18.40s/it]{'loss': 1.473, 'grad_norm': 1.800044059753418, 'learning_rate': 2.396e-07, 'epoch': 1201.0}
  0%|          | 1202/1500000 [59:58<5721:15:27, 13.74s/it]                                                             0%|          | 1202/1500000 [59:58<5721:15:27, 13.74s/it]{'loss': 1.4853, 'grad_norm': 1.3239918947219849, 'learning_rate': 2.398e-07, 'epoch': 1202.0}
  0%|          | 1203/1500000 [1:00:00<4330:25:12, 10.40s/it]                                                               0%|          | 1203/1500000 [1:00:00<4330:25:12, 10.40s/it]{'loss': 1.4879, 'grad_norm': 1.4840115308761597, 'learning_rate': 2.4000000000000003e-07, 'epoch': 1203.0}
  0%|          | 1204/1500000 [1:00:03<3355:41:59,  8.06s/it]                                                               0%|          | 1204/1500000 [1:00:03<3355:41:59,  8.06s/it]{'loss': 1.477, 'grad_norm': 2.750281572341919, 'learning_rate': 2.4020000000000005e-07, 'epoch': 1204.0}
  0%|          | 1205/1500000 [1:00:06<2702:20:37,  6.49s/it]                                                               0%|          | 1205/1500000 [1:00:06<2702:20:37,  6.49s/it]{'loss': 1.4769, 'grad_norm': 2.107913017272949, 'learning_rate': 2.404e-07, 'epoch': 1205.0}
  0%|          | 1206/1500000 [1:00:08<2208:15:56,  5.30s/it]                                                               0%|          | 1206/1500000 [1:00:08<2208:15:56,  5.30s/it]{'loss': 1.4701, 'grad_norm': 1.0369772911071777, 'learning_rate': 2.4059999999999997e-07, 'epoch': 1206.0}
  0%|          | 1207/1500000 [1:00:11<1858:30:52,  4.46s/it]                                                               0%|          | 1207/1500000 [1:00:11<1858:30:52,  4.46s/it]{'loss': 1.4837, 'grad_norm': 3.0324506759643555, 'learning_rate': 2.408e-07, 'epoch': 1207.0}
  0%|          | 1208/1500000 [1:00:14<1653:51:27,  3.97s/it]                                                               0%|          | 1208/1500000 [1:00:14<1653:51:27,  3.97s/it]{'loss': 1.484, 'grad_norm': 1.387178659439087, 'learning_rate': 2.41e-07, 'epoch': 1208.0}
  0%|          | 1209/1500000 [1:00:17<1512:32:01,  3.63s/it]                                                               0%|          | 1209/1500000 [1:00:17<1512:32:01,  3.63s/it]{'loss': 1.4761, 'grad_norm': 1.8683643341064453, 'learning_rate': 2.412e-07, 'epoch': 1209.0}
  0%|          | 1210/1500000 [1:00:19<1419:21:45,  3.41s/it]                                                               0%|          | 1210/1500000 [1:00:19<1419:21:45,  3.41s/it]{'loss': 1.4719, 'grad_norm': 1.048480749130249, 'learning_rate': 2.4140000000000003e-07, 'epoch': 1210.0}
  0%|          | 1211/1500000 [1:00:22<1327:08:00,  3.19s/it]                                                               0%|          | 1211/1500000 [1:00:22<1327:08:00,  3.19s/it]{'loss': 1.4704, 'grad_norm': 1.3298293352127075, 'learning_rate': 2.416e-07, 'epoch': 1211.0}
  0%|          | 1212/1500000 [1:00:25<1242:16:15,  2.98s/it]                                                               0%|          | 1212/1500000 [1:00:25<1242:16:15,  2.98s/it]{'loss': 1.4706, 'grad_norm': 1.0656434297561646, 'learning_rate': 2.418e-07, 'epoch': 1212.0}
  0%|          | 1213/1500000 [1:00:27<1189:02:39,  2.86s/it]                                                               0%|          | 1213/1500000 [1:00:27<1189:02:39,  2.86s/it]{'loss': 1.4733, 'grad_norm': 1.3737294673919678, 'learning_rate': 2.42e-07, 'epoch': 1213.0}
  0%|          | 1214/1500000 [1:00:30<1187:30:20,  2.85s/it]                                                               0%|          | 1214/1500000 [1:00:30<1187:30:20,  2.85s/it]{'loss': 1.4746, 'grad_norm': 4.105016231536865, 'learning_rate': 2.422e-07, 'epoch': 1214.0}
  0%|          | 1215/1500000 [1:00:33<1197:11:12,  2.88s/it]                                                               0%|          | 1215/1500000 [1:00:33<1197:11:12,  2.88s/it]{'loss': 1.4772, 'grad_norm': 1.8955568075180054, 'learning_rate': 2.424e-07, 'epoch': 1215.0}
  0%|          | 1216/1500000 [1:00:35<1146:34:20,  2.75s/it]                                                               0%|          | 1216/1500000 [1:00:35<1146:34:20,  2.75s/it]{'loss': 1.4741, 'grad_norm': 1.202074646949768, 'learning_rate': 2.426e-07, 'epoch': 1216.0}
  0%|          | 1217/1500000 [1:00:38<1129:55:20,  2.71s/it]                                                               0%|          | 1217/1500000 [1:00:38<1129:55:20,  2.71s/it]{'loss': 1.4667, 'grad_norm': 1.0967694520950317, 'learning_rate': 2.428e-07, 'epoch': 1217.0}
  0%|          | 1218/1500000 [1:00:41<1127:01:12,  2.71s/it]                                                               0%|          | 1218/1500000 [1:00:41<1127:01:12,  2.71s/it]{'loss': 1.4751, 'grad_norm': 1.3721027374267578, 'learning_rate': 2.43e-07, 'epoch': 1218.0}
  0%|          | 1219/1500000 [1:00:43<1111:41:45,  2.67s/it]                                                               0%|          | 1219/1500000 [1:00:43<1111:41:45,  2.67s/it]{'loss': 1.47, 'grad_norm': 3.8949379920959473, 'learning_rate': 2.432e-07, 'epoch': 1219.0}
  0%|          | 1220/1500000 [1:00:46<1131:24:18,  2.72s/it]                                                               0%|          | 1220/1500000 [1:00:46<1131:24:18,  2.72s/it]{'loss': 1.4684, 'grad_norm': 1.2516933679580688, 'learning_rate': 2.434e-07, 'epoch': 1220.0}
  0%|          | 1221/1500000 [1:00:49<1112:52:21,  2.67s/it]                                                               0%|          | 1221/1500000 [1:00:49<1112:52:21,  2.67s/it]{'loss': 1.4693, 'grad_norm': 1.0562955141067505, 'learning_rate': 2.4360000000000004e-07, 'epoch': 1221.0}
  0%|          | 1222/1500000 [1:00:51<1098:38:22,  2.64s/it]                                                               0%|          | 1222/1500000 [1:00:51<1098:38:22,  2.64s/it]{'loss': 1.4688, 'grad_norm': 1.239423394203186, 'learning_rate': 2.4380000000000005e-07, 'epoch': 1222.0}
  0%|          | 1223/1500000 [1:00:54<1082:55:25,  2.60s/it]                                                               0%|          | 1223/1500000 [1:00:54<1082:55:25,  2.60s/it]{'loss': 1.4611, 'grad_norm': 1.2464631795883179, 'learning_rate': 2.4399999999999996e-07, 'epoch': 1223.0}
  0%|          | 1224/1500000 [1:00:56<1084:38:36,  2.61s/it]                                                               0%|          | 1224/1500000 [1:00:56<1084:38:36,  2.61s/it]{'loss': 1.4657, 'grad_norm': 2.9990017414093018, 'learning_rate': 2.442e-07, 'epoch': 1224.0}
  0%|          | 1225/1500000 [1:00:59<1117:36:37,  2.68s/it]                                                               0%|          | 1225/1500000 [1:00:59<1117:36:37,  2.68s/it]{'loss': 1.4664, 'grad_norm': 0.972912609577179, 'learning_rate': 2.444e-07, 'epoch': 1225.0}
  0%|          | 1226/1500000 [1:01:02<1100:37:22,  2.64s/it]                                                               0%|          | 1226/1500000 [1:01:02<1100:37:22,  2.64s/it]{'loss': 1.4657, 'grad_norm': 1.134501576423645, 'learning_rate': 2.446e-07, 'epoch': 1226.0}
  0%|          | 1227/1500000 [1:01:05<1121:23:09,  2.69s/it]                                                               0%|          | 1227/1500000 [1:01:05<1121:23:09,  2.69s/it]{'loss': 1.4902, 'grad_norm': 1.5426750183105469, 'learning_rate': 2.448e-07, 'epoch': 1227.0}
  0%|          | 1228/1500000 [1:01:07<1036:05:41,  2.49s/it]                                                               0%|          | 1228/1500000 [1:01:07<1036:05:41,  2.49s/it]{'loss': 1.4629, 'grad_norm': 1.220577597618103, 'learning_rate': 2.45e-07, 'epoch': 1228.0}
  0%|          | 1229/1500000 [1:01:09<992:00:26,  2.38s/it]                                                               0%|          | 1229/1500000 [1:01:09<992:00:26,  2.38s/it]{'loss': 1.4558, 'grad_norm': 1.7659103870391846, 'learning_rate': 2.452e-07, 'epoch': 1229.0}
  0%|          | 1230/1500000 [1:01:11<965:39:47,  2.32s/it]                                                              0%|          | 1230/1500000 [1:01:11<965:39:47,  2.32s/it]{'loss': 1.4591, 'grad_norm': 3.9353084564208984, 'learning_rate': 2.454e-07, 'epoch': 1230.0}
  0%|          | 1231/1500000 [1:01:13<945:12:41,  2.27s/it]                                                              0%|          | 1231/1500000 [1:01:13<945:12:41,  2.27s/it]{'loss': 1.4623, 'grad_norm': 2.269320011138916, 'learning_rate': 2.4560000000000003e-07, 'epoch': 1231.0}
  0%|          | 1232/1500000 [1:01:15<927:54:27,  2.23s/it]                                                              0%|          | 1232/1500000 [1:01:15<927:54:27,  2.23s/it]{'loss': 1.4603, 'grad_norm': 7.536285877227783, 'learning_rate': 2.4580000000000004e-07, 'epoch': 1232.0}
  0%|          | 1233/1500000 [1:01:17<921:09:26,  2.21s/it]                                                              0%|          | 1233/1500000 [1:01:17<921:09:26,  2.21s/it]{'loss': 1.4603, 'grad_norm': 9.389153480529785, 'learning_rate': 2.46e-07, 'epoch': 1233.0}
  0%|          | 1234/1500000 [1:01:19<879:03:38,  2.11s/it]                                                              0%|          | 1234/1500000 [1:01:19<879:03:38,  2.11s/it]{'loss': 1.4576, 'grad_norm': 1.7914069890975952, 'learning_rate': 2.4619999999999997e-07, 'epoch': 1234.0}
  0%|          | 1235/1500000 [1:01:21<850:20:31,  2.04s/it]                                                              0%|          | 1235/1500000 [1:01:21<850:20:31,  2.04s/it]{'loss': 1.4495, 'grad_norm': 1.2206947803497314, 'learning_rate': 2.464e-07, 'epoch': 1235.0}
  0%|          | 1236/1500000 [1:01:23<839:13:06,  2.02s/it]                                                              0%|          | 1236/1500000 [1:01:23<839:13:06,  2.02s/it]{'loss': 1.4607, 'grad_norm': 1.293881893157959, 'learning_rate': 2.466e-07, 'epoch': 1236.0}
  0%|          | 1237/1500000 [1:01:25<820:43:07,  1.97s/it]                                                              0%|          | 1237/1500000 [1:01:25<820:43:07,  1.97s/it]{'loss': 1.4646, 'grad_norm': 2.5574958324432373, 'learning_rate': 2.468e-07, 'epoch': 1237.0}
  0%|          | 1238/1500000 [1:01:27<841:33:04,  2.02s/it]                                                              0%|          | 1238/1500000 [1:01:27<841:33:04,  2.02s/it]{'loss': 1.4641, 'grad_norm': 1.5099116563796997, 'learning_rate': 2.4700000000000003e-07, 'epoch': 1238.0}
  0%|          | 1239/1500000 [1:01:29<821:56:56,  1.97s/it]                                                              0%|          | 1239/1500000 [1:01:29<821:56:56,  1.97s/it]{'loss': 1.452, 'grad_norm': 4.709683418273926, 'learning_rate': 2.4720000000000004e-07, 'epoch': 1239.0}
  0%|          | 1240/1500000 [1:01:31<808:12:56,  1.94s/it]                                                              0%|          | 1240/1500000 [1:01:31<808:12:56,  1.94s/it]{'loss': 1.458, 'grad_norm': 0.9900904893875122, 'learning_rate': 2.474e-07, 'epoch': 1240.0}
  0%|          | 1241/1500000 [1:01:33<831:55:30,  2.00s/it]                                                              0%|          | 1241/1500000 [1:01:33<831:55:30,  2.00s/it]{'loss': 1.452, 'grad_norm': 0.8807137608528137, 'learning_rate': 2.476e-07, 'epoch': 1241.0}
  0%|          | 1242/1500000 [1:01:35<816:32:24,  1.96s/it]                                                              0%|          | 1242/1500000 [1:01:35<816:32:24,  1.96s/it]{'loss': 1.4529, 'grad_norm': 1.6167627573013306, 'learning_rate': 2.478e-07, 'epoch': 1242.0}
  0%|          | 1243/1500000 [1:01:37<806:41:25,  1.94s/it]                                                              0%|          | 1243/1500000 [1:01:37<806:41:25,  1.94s/it]{'loss': 1.4563, 'grad_norm': 1.2991138696670532, 'learning_rate': 2.48e-07, 'epoch': 1243.0}
  0%|          | 1244/1500000 [1:01:39<793:49:08,  1.91s/it]                                                              0%|          | 1244/1500000 [1:01:39<793:49:08,  1.91s/it]{'loss': 1.4546, 'grad_norm': 2.6730098724365234, 'learning_rate': 2.482e-07, 'epoch': 1244.0}
  0%|          | 1245/1500000 [1:01:41<817:56:13,  1.96s/it]                                                              0%|          | 1245/1500000 [1:01:41<817:56:13,  1.96s/it]{'loss': 1.4517, 'grad_norm': 0.9535369277000427, 'learning_rate': 2.484e-07, 'epoch': 1245.0}
  0%|          | 1246/1500000 [1:01:43<806:40:57,  1.94s/it]                                                              0%|          | 1246/1500000 [1:01:43<806:40:57,  1.94s/it]{'loss': 1.4566, 'grad_norm': 1.4004104137420654, 'learning_rate': 2.486e-07, 'epoch': 1246.0}
  0%|          | 1247/1500000 [1:01:44<796:20:36,  1.91s/it]                                                              0%|          | 1247/1500000 [1:01:44<796:20:36,  1.91s/it]{'loss': 1.4511, 'grad_norm': 1.7576404809951782, 'learning_rate': 2.488e-07, 'epoch': 1247.0}
  0%|          | 1248/1500000 [1:01:46<789:26:55,  1.90s/it]                                                              0%|          | 1248/1500000 [1:01:46<789:26:55,  1.90s/it]{'loss': 1.4547, 'grad_norm': 1.0512709617614746, 'learning_rate': 2.49e-07, 'epoch': 1248.0}
  0%|          | 1249/1500000 [1:01:48<786:29:19,  1.89s/it]                                                              0%|          | 1249/1500000 [1:01:48<786:29:19,  1.89s/it]{'loss': 1.4474, 'grad_norm': 2.700145721435547, 'learning_rate': 2.4920000000000003e-07, 'epoch': 1249.0}
  0%|          | 1250/1500000 [1:01:50<779:48:36,  1.87s/it]                                                              0%|          | 1250/1500000 [1:01:50<779:48:36,  1.87s/it]{'loss': 1.4536, 'grad_norm': 2.0460383892059326, 'learning_rate': 2.4940000000000005e-07, 'epoch': 1250.0}
  0%|          | 1251/1500000 [1:01:52<778:21:29,  1.87s/it]                                                              0%|          | 1251/1500000 [1:01:52<778:21:29,  1.87s/it]{'loss': 1.4517, 'grad_norm': 1.0920835733413696, 'learning_rate': 2.4959999999999996e-07, 'epoch': 1251.0}
  0%|          | 1252/1500000 [1:01:54<774:42:49,  1.86s/it]                                                              0%|          | 1252/1500000 [1:01:54<774:42:49,  1.86s/it]{'loss': 1.45, 'grad_norm': 1.2002578973770142, 'learning_rate': 2.498e-07, 'epoch': 1252.0}
  0%|          | 1253/1500000 [1:01:56<777:28:01,  1.87s/it]                                                              0%|          | 1253/1500000 [1:01:56<777:28:01,  1.87s/it]{'loss': 1.4516, 'grad_norm': 1.0414189100265503, 'learning_rate': 2.5e-07, 'epoch': 1253.0}
  0%|          | 1254/1500000 [1:01:57<773:12:02,  1.86s/it]                                                              0%|          | 1254/1500000 [1:01:57<773:12:02,  1.86s/it]{'loss': 1.4486, 'grad_norm': 1.7231330871582031, 'learning_rate': 2.502e-07, 'epoch': 1254.0}
  0%|          | 1255/1500000 [1:01:59<786:36:03,  1.89s/it]                                                              0%|          | 1255/1500000 [1:01:59<786:36:03,  1.89s/it]{'loss': 1.4579, 'grad_norm': 0.973814070224762, 'learning_rate': 2.504e-07, 'epoch': 1255.0}
  0%|          | 1256/1500000 [1:02:01<782:22:15,  1.88s/it]                                                              0%|          | 1256/1500000 [1:02:01<782:22:15,  1.88s/it]{'loss': 1.4465, 'grad_norm': 1.6047260761260986, 'learning_rate': 2.5060000000000003e-07, 'epoch': 1256.0}
  0%|          | 1257/1500000 [1:02:03<810:56:18,  1.95s/it]                                                              0%|          | 1257/1500000 [1:02:03<810:56:18,  1.95s/it]{'loss': 1.4473, 'grad_norm': 6.1370110511779785, 'learning_rate': 2.508e-07, 'epoch': 1257.0}
  0%|          | 1258/1500000 [1:02:05<800:09:05,  1.92s/it]                                                              0%|          | 1258/1500000 [1:02:05<800:09:05,  1.92s/it]{'loss': 1.4404, 'grad_norm': 0.9763051867485046, 'learning_rate': 2.51e-07, 'epoch': 1258.0}
  0%|          | 1259/1500000 [1:02:07<824:49:05,  1.98s/it]                                                              0%|          | 1259/1500000 [1:02:07<824:49:05,  1.98s/it]{'loss': 1.4516, 'grad_norm': 1.3749010562896729, 'learning_rate': 2.512e-07, 'epoch': 1259.0}
  0%|          | 1260/1500000 [1:02:09<838:51:45,  2.01s/it]                                                              0%|          | 1260/1500000 [1:02:09<838:51:45,  2.01s/it]{'loss': 1.4366, 'grad_norm': 1.042248010635376, 'learning_rate': 2.5140000000000004e-07, 'epoch': 1260.0}
  0%|          | 1261/1500000 [1:02:11<852:13:31,  2.05s/it]                                                              0%|          | 1261/1500000 [1:02:11<852:13:31,  2.05s/it]{'loss': 1.4366, 'grad_norm': 2.5567352771759033, 'learning_rate': 2.516e-07, 'epoch': 1261.0}
  0%|          | 1262/1500000 [1:02:13<831:51:07,  2.00s/it]                                                              0%|          | 1262/1500000 [1:02:13<831:51:07,  2.00s/it]{'loss': 1.4422, 'grad_norm': 1.0428352355957031, 'learning_rate': 2.5179999999999997e-07, 'epoch': 1262.0}
  0%|          | 1263/1500000 [1:02:15<812:30:24,  1.95s/it]                                                              0%|          | 1263/1500000 [1:02:15<812:30:24,  1.95s/it]{'loss': 1.4399, 'grad_norm': 1.9985082149505615, 'learning_rate': 2.52e-07, 'epoch': 1263.0}
  0%|          | 1264/1500000 [1:02:17<806:20:11,  1.94s/it]                                                              0%|          | 1264/1500000 [1:02:17<806:20:11,  1.94s/it]{'loss': 1.4427, 'grad_norm': 1.3293437957763672, 'learning_rate': 2.522e-07, 'epoch': 1264.0}
  0%|          | 1265/1500000 [1:02:19<807:09:16,  1.94s/it]                                                              0%|          | 1265/1500000 [1:02:19<807:09:16,  1.94s/it]{'loss': 1.4492, 'grad_norm': 1.7706325054168701, 'learning_rate': 2.524e-07, 'epoch': 1265.0}
  0%|          | 1266/1500000 [1:02:21<832:11:13,  2.00s/it]                                                              0%|          | 1266/1500000 [1:02:21<832:11:13,  2.00s/it]{'loss': 1.4558, 'grad_norm': 28.846891403198242, 'learning_rate': 2.526e-07, 'epoch': 1266.0}
  0%|          | 1267/1500000 [1:02:23<832:41:27,  2.00s/it]                                                              0%|          | 1267/1500000 [1:02:23<832:41:27,  2.00s/it]{'loss': 1.439, 'grad_norm': 1.0951303243637085, 'learning_rate': 2.5280000000000004e-07, 'epoch': 1267.0}
  0%|          | 1268/1500000 [1:02:25<820:30:40,  1.97s/it]                                                              0%|          | 1268/1500000 [1:02:25<820:30:40,  1.97s/it]{'loss': 1.4401, 'grad_norm': 2.0279362201690674, 'learning_rate': 2.53e-07, 'epoch': 1268.0}
  0%|          | 1269/1500000 [1:02:27<807:17:53,  1.94s/it]                                                              0%|          | 1269/1500000 [1:02:27<807:17:53,  1.94s/it]{'loss': 1.4454, 'grad_norm': 1.166099190711975, 'learning_rate': 2.532e-07, 'epoch': 1269.0}
  0%|          | 1270/1500000 [1:02:29<797:31:44,  1.92s/it]                                                              0%|          | 1270/1500000 [1:02:29<797:31:44,  1.92s/it]{'loss': 1.4321, 'grad_norm': 1.0827661752700806, 'learning_rate': 2.534e-07, 'epoch': 1270.0}
  0%|          | 1271/1500000 [1:02:31<793:09:25,  1.91s/it]                                                              0%|          | 1271/1500000 [1:02:31<793:09:25,  1.91s/it]{'loss': 1.4325, 'grad_norm': 1.687558889389038, 'learning_rate': 2.536e-07, 'epoch': 1271.0}
  0%|          | 1272/1500000 [1:02:33<797:57:01,  1.92s/it]                                                              0%|          | 1272/1500000 [1:02:33<797:57:01,  1.92s/it]{'loss': 1.4414, 'grad_norm': 1.4109059572219849, 'learning_rate': 2.538e-07, 'epoch': 1272.0}
  0%|          | 1273/1500000 [1:02:34<791:23:59,  1.90s/it]                                                              0%|          | 1273/1500000 [1:02:35<791:23:59,  1.90s/it]{'loss': 1.4452, 'grad_norm': 2.5962886810302734, 'learning_rate': 2.54e-07, 'epoch': 1273.0}
  0%|          | 1274/1500000 [1:02:36<785:37:08,  1.89s/it]                                                              0%|          | 1274/1500000 [1:02:36<785:37:08,  1.89s/it]{'loss': 1.4373, 'grad_norm': 1.6100152730941772, 'learning_rate': 2.542e-07, 'epoch': 1274.0}
  0%|          | 1275/1500000 [1:02:38<782:19:58,  1.88s/it]                                                              0%|          | 1275/1500000 [1:02:38<782:19:58,  1.88s/it]{'loss': 1.4385, 'grad_norm': 4.951165676116943, 'learning_rate': 2.544e-07, 'epoch': 1275.0}
  0%|          | 1276/1500000 [1:02:40<812:15:15,  1.95s/it]                                                              0%|          | 1276/1500000 [1:02:40<812:15:15,  1.95s/it]{'loss': 1.4325, 'grad_norm': 1.314954161643982, 'learning_rate': 2.546e-07, 'epoch': 1276.0}
  0%|          | 1277/1500000 [1:02:42<830:33:40,  2.00s/it]                                                              0%|          | 1277/1500000 [1:02:42<830:33:40,  2.00s/it]{'loss': 1.4282, 'grad_norm': 1.3664406538009644, 'learning_rate': 2.5480000000000003e-07, 'epoch': 1277.0}
  0%|          | 1278/1500000 [1:02:45<844:26:12,  2.03s/it]                                                              0%|          | 1278/1500000 [1:02:45<844:26:12,  2.03s/it]{'loss': 1.4293, 'grad_norm': 1.3369311094284058, 'learning_rate': 2.5500000000000005e-07, 'epoch': 1278.0}
  0%|          | 1279/1500000 [1:02:47<853:22:52,  2.05s/it]                                                              0%|          | 1279/1500000 [1:02:47<853:22:52,  2.05s/it]{'loss': 1.4259, 'grad_norm': 2.1526150703430176, 'learning_rate': 2.5519999999999996e-07, 'epoch': 1279.0}
  0%|          | 1280/1500000 [1:02:49<859:06:47,  2.06s/it]                                                              0%|          | 1280/1500000 [1:02:49<859:06:47,  2.06s/it]{'loss': 1.4251, 'grad_norm': 2.5665032863616943, 'learning_rate': 2.5539999999999997e-07, 'epoch': 1280.0}
  0%|          | 1281/1500000 [1:02:51<830:33:32,  2.00s/it]                                                              0%|          | 1281/1500000 [1:02:51<830:33:32,  2.00s/it]{'loss': 1.4256, 'grad_norm': 2.1603879928588867, 'learning_rate': 2.556e-07, 'epoch': 1281.0}
  0%|          | 1282/1500000 [1:02:52<810:40:18,  1.95s/it]                                                              0%|          | 1282/1500000 [1:02:52<810:40:18,  1.95s/it]{'loss': 1.4205, 'grad_norm': 1.3840689659118652, 'learning_rate': 2.558e-07, 'epoch': 1282.0}
  0%|          | 1283/1500000 [1:02:54<800:12:58,  1.92s/it]                                                              0%|          | 1283/1500000 [1:02:54<800:12:58,  1.92s/it]{'loss': 1.4274, 'grad_norm': 5.477316856384277, 'learning_rate': 2.56e-07, 'epoch': 1283.0}
  0%|          | 1284/1500000 [1:02:56<788:21:07,  1.89s/it]                                                              0%|          | 1284/1500000 [1:02:56<788:21:07,  1.89s/it]{'loss': 1.4209, 'grad_norm': 1.9169272184371948, 'learning_rate': 2.5620000000000003e-07, 'epoch': 1284.0}
  0%|          | 1285/1500000 [1:02:58<796:59:53,  1.91s/it]                                                              0%|          | 1285/1500000 [1:02:58<796:59:53,  1.91s/it]{'loss': 1.4264, 'grad_norm': 1.0225712060928345, 'learning_rate': 2.564e-07, 'epoch': 1285.0}
  0%|          | 1286/1500000 [1:03:00<788:50:38,  1.89s/it]                                                              0%|          | 1286/1500000 [1:03:00<788:50:38,  1.89s/it]{'loss': 1.4281, 'grad_norm': 1.217315912246704, 'learning_rate': 2.566e-07, 'epoch': 1286.0}
  0%|          | 1287/1500000 [1:03:02<790:05:44,  1.90s/it]                                                              0%|          | 1287/1500000 [1:03:02<790:05:44,  1.90s/it]{'loss': 1.4277, 'grad_norm': 1.0954370498657227, 'learning_rate': 2.568e-07, 'epoch': 1287.0}
  0%|          | 1288/1500000 [1:03:04<820:19:50,  1.97s/it]                                                              0%|          | 1288/1500000 [1:03:04<820:19:50,  1.97s/it]{'loss': 1.4339, 'grad_norm': 1.149692416191101, 'learning_rate': 2.5700000000000004e-07, 'epoch': 1288.0}
  0%|          | 1289/1500000 [1:03:06<840:40:03,  2.02s/it]                                                              0%|          | 1289/1500000 [1:03:06<840:40:03,  2.02s/it]{'loss': 1.4219, 'grad_norm': 4.787367343902588, 'learning_rate': 2.572e-07, 'epoch': 1289.0}
  0%|          | 1290/1500000 [1:03:08<837:37:40,  2.01s/it]                                                              0%|          | 1290/1500000 [1:03:08<837:37:40,  2.01s/it]{'loss': 1.419, 'grad_norm': 1.9581788778305054, 'learning_rate': 2.574e-07, 'epoch': 1290.0}
  0%|          | 1291/1500000 [1:03:10<816:47:35,  1.96s/it]                                                              0%|          | 1291/1500000 [1:03:10<816:47:35,  1.96s/it]{'loss': 1.409, 'grad_norm': 1.1662989854812622, 'learning_rate': 2.576e-07, 'epoch': 1291.0}
  0%|          | 1292/1500000 [1:03:12<834:25:16,  2.00s/it]                                                              0%|          | 1292/1500000 [1:03:12<834:25:16,  2.00s/it]{'loss': 1.4211, 'grad_norm': 1.3949978351593018, 'learning_rate': 2.578e-07, 'epoch': 1292.0}
  0%|          | 1293/1500000 [1:03:14<847:16:29,  2.04s/it]                                                              0%|          | 1293/1500000 [1:03:14<847:16:29,  2.04s/it]{'loss': 1.4242, 'grad_norm': 1.1677533388137817, 'learning_rate': 2.58e-07, 'epoch': 1293.0}
  0%|          | 1294/1500000 [1:03:16<826:28:42,  1.99s/it]                                                              0%|          | 1294/1500000 [1:03:16<826:28:42,  1.99s/it]{'loss': 1.4121, 'grad_norm': 3.3219761848449707, 'learning_rate': 2.582e-07, 'epoch': 1294.0}
  0%|          | 1295/1500000 [1:03:18<808:20:11,  1.94s/it]                                                              0%|          | 1295/1500000 [1:03:18<808:20:11,  1.94s/it]{'loss': 1.4314, 'grad_norm': 2.524172782897949, 'learning_rate': 2.5840000000000004e-07, 'epoch': 1295.0}
  0%|          | 1296/1500000 [1:03:20<793:18:45,  1.91s/it]                                                              0%|          | 1296/1500000 [1:03:20<793:18:45,  1.91s/it]{'loss': 1.4232, 'grad_norm': 1.2186399698257446, 'learning_rate': 2.586e-07, 'epoch': 1296.0}
  0%|          | 1297/1500000 [1:03:22<792:46:06,  1.90s/it]                                                              0%|          | 1297/1500000 [1:03:22<792:46:06,  1.90s/it]{'loss': 1.4114, 'grad_norm': 1.8120219707489014, 'learning_rate': 2.588e-07, 'epoch': 1297.0}
  0%|          | 1298/1500000 [1:03:24<817:18:23,  1.96s/it]                                                              0%|          | 1298/1500000 [1:03:24<817:18:23,  1.96s/it]{'loss': 1.4237, 'grad_norm': 2.8464624881744385, 'learning_rate': 2.59e-07, 'epoch': 1298.0}
  0%|          | 1299/1500000 [1:03:26<835:44:29,  2.01s/it]                                                              0%|          | 1299/1500000 [1:03:26<835:44:29,  2.01s/it]{'loss': 1.4114, 'grad_norm': 1.075995683670044, 'learning_rate': 2.592e-07, 'epoch': 1299.0}
  0%|          | 1300/1500000 [1:03:28<847:03:20,  2.03s/it]                                                              0%|          | 1300/1500000 [1:03:28<847:03:20,  2.03s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.4207, 'grad_norm': 1.1967618465423584, 'learning_rate': 2.594e-07, 'epoch': 1300.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.52it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.17s/it][A
 57%|█████▋    | 4/7 [00:05<00:04,  1.40s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.33s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.39s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A                                                            
                                             [A  0%|          | 1300/1500000 [1:03:54<847:03:20,  2.03s/it]
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1100] due to args.save_total_limit
{'eval_loss': 3.4208734035491943, 'eval_wer': 0.9996560421921578, 'eval_cer': 0.9655619737615038, 'eval_runtime': 13.7057, 'eval_samples_per_second': 71.722, 'eval_steps_per_second': 0.511, 'epoch': 1300.0}
  0%|          | 1301/1500000 [1:04:13<6191:59:27, 14.87s/it]                                                               0%|          | 1301/1500000 [1:04:13<6191:59:27, 14.87s/it]{'loss': 1.4093, 'grad_norm': 1.8892102241516113, 'learning_rate': 2.596e-07, 'epoch': 1301.0}
  0%|          | 1302/1500000 [1:04:15<4681:51:46, 11.25s/it]                                                               0%|          | 1302/1500000 [1:04:16<4681:51:46, 11.25s/it]{'loss': 1.4256, 'grad_norm': 1.5327144861221313, 'learning_rate': 2.598e-07, 'epoch': 1302.0}
  0%|          | 1303/1500000 [1:04:18<3631:07:13,  8.72s/it]                                                               0%|          | 1303/1500000 [1:04:18<3631:07:13,  8.72s/it]{'loss': 1.4258, 'grad_norm': 17.31597137451172, 'learning_rate': 2.6e-07, 'epoch': 1303.0}
  0%|          | 1304/1500000 [1:04:21<2861:23:36,  6.87s/it]                                                               0%|          | 1304/1500000 [1:04:21<2861:23:36,  6.87s/it]{'loss': 1.412, 'grad_norm': 1.0996692180633545, 'learning_rate': 2.602e-07, 'epoch': 1304.0}
  0%|          | 1305/1500000 [1:04:24<2334:57:28,  5.61s/it]                                                               0%|          | 1305/1500000 [1:04:24<2334:57:28,  5.61s/it]{'loss': 1.4127, 'grad_norm': 1.0819134712219238, 'learning_rate': 2.6040000000000003e-07, 'epoch': 1305.0}
  0%|          | 1306/1500000 [1:04:26<1955:09:53,  4.70s/it]                                                               0%|          | 1306/1500000 [1:04:26<1955:09:53,  4.70s/it]{'loss': 1.4165, 'grad_norm': 1.8872182369232178, 'learning_rate': 2.6060000000000004e-07, 'epoch': 1306.0}
  0%|          | 1307/1500000 [1:04:29<1699:51:24,  4.08s/it]                                                               0%|          | 1307/1500000 [1:04:29<1699:51:24,  4.08s/it]{'loss': 1.4181, 'grad_norm': 2.0322532653808594, 'learning_rate': 2.608e-07, 'epoch': 1307.0}
  0%|          | 1308/1500000 [1:04:32<1547:40:49,  3.72s/it]                                                               0%|          | 1308/1500000 [1:04:32<1547:40:49,  3.72s/it]{'loss': 1.4144, 'grad_norm': 1.5241918563842773, 'learning_rate': 2.6099999999999997e-07, 'epoch': 1308.0}
  0%|          | 1309/1500000 [1:04:34<1400:43:50,  3.36s/it]                                                               0%|          | 1309/1500000 [1:04:34<1400:43:50,  3.36s/it]{'loss': 1.4156, 'grad_norm': 2.5826759338378906, 'learning_rate': 2.612e-07, 'epoch': 1309.0}
  0%|          | 1310/1500000 [1:04:37<1301:31:44,  3.13s/it]                                                               0%|          | 1310/1500000 [1:04:37<1301:31:44,  3.13s/it]{'loss': 1.4179, 'grad_norm': 2.1376023292541504, 'learning_rate': 2.614e-07, 'epoch': 1310.0}
  0%|          | 1311/1500000 [1:04:39<1223:50:58,  2.94s/it]                                                               0%|          | 1311/1500000 [1:04:39<1223:50:58,  2.94s/it]{'loss': 1.4139, 'grad_norm': 1.601806640625, 'learning_rate': 2.616e-07, 'epoch': 1311.0}
  0%|          | 1312/1500000 [1:04:42<1176:48:20,  2.83s/it]                                                               0%|          | 1312/1500000 [1:04:42<1176:48:20,  2.83s/it]{'loss': 1.4136, 'grad_norm': 1.4133378267288208, 'learning_rate': 2.6180000000000003e-07, 'epoch': 1312.0}
  0%|          | 1313/1500000 [1:04:44<1145:03:42,  2.75s/it]                                                               0%|          | 1313/1500000 [1:04:44<1145:03:42,  2.75s/it]{'loss': 1.4134, 'grad_norm': 1.0933128595352173, 'learning_rate': 2.62e-07, 'epoch': 1313.0}
  0%|          | 1314/1500000 [1:04:47<1132:22:21,  2.72s/it]                                                               0%|          | 1314/1500000 [1:04:47<1132:22:21,  2.72s/it]{'loss': 1.4085, 'grad_norm': 1.457848310470581, 'learning_rate': 2.622e-07, 'epoch': 1314.0}
  0%|          | 1315/1500000 [1:04:50<1118:08:35,  2.69s/it]                                                               0%|          | 1315/1500000 [1:04:50<1118:08:35,  2.69s/it]{'loss': 1.4134, 'grad_norm': 3.009866952896118, 'learning_rate': 2.624e-07, 'epoch': 1315.0}
  0%|          | 1316/1500000 [1:04:52<1103:50:50,  2.65s/it]                                                               0%|          | 1316/1500000 [1:04:52<1103:50:50,  2.65s/it]{'loss': 1.4043, 'grad_norm': 1.065020203590393, 'learning_rate': 2.6260000000000004e-07, 'epoch': 1316.0}
  0%|          | 1317/1500000 [1:04:55<1088:27:17,  2.61s/it]                                                               0%|          | 1317/1500000 [1:04:55<1088:27:17,  2.61s/it]{'loss': 1.409, 'grad_norm': 1.1927803754806519, 'learning_rate': 2.628e-07, 'epoch': 1317.0}
  0%|          | 1318/1500000 [1:04:57<1080:41:31,  2.60s/it]                                                               0%|          | 1318/1500000 [1:04:57<1080:41:31,  2.60s/it]{'loss': 1.4088, 'grad_norm': 1.1708406209945679, 'learning_rate': 2.63e-07, 'epoch': 1318.0}
  0%|          | 1319/1500000 [1:05:00<1082:27:48,  2.60s/it]                                                               0%|          | 1319/1500000 [1:05:00<1082:27:48,  2.60s/it]{'loss': 1.4106, 'grad_norm': 1.900038242340088, 'learning_rate': 2.632e-07, 'epoch': 1319.0}
  0%|          | 1320/1500000 [1:05:03<1086:53:00,  2.61s/it]                                                               0%|          | 1320/1500000 [1:05:03<1086:53:00,  2.61s/it]{'loss': 1.401, 'grad_norm': 1.8224352598190308, 'learning_rate': 2.634e-07, 'epoch': 1320.0}
  0%|          | 1321/1500000 [1:05:05<1075:35:05,  2.58s/it]                                                               0%|          | 1321/1500000 [1:05:05<1075:35:05,  2.58s/it]{'loss': 1.4065, 'grad_norm': 1.3700547218322754, 'learning_rate': 2.636e-07, 'epoch': 1321.0}
  0%|          | 1322/1500000 [1:05:08<1087:31:59,  2.61s/it]                                                               0%|          | 1322/1500000 [1:05:08<1087:31:59,  2.61s/it]{'loss': 1.3912, 'grad_norm': 1.3192987442016602, 'learning_rate': 2.638e-07, 'epoch': 1322.0}
  0%|          | 1323/1500000 [1:05:10<1085:10:43,  2.61s/it]                                                               0%|          | 1323/1500000 [1:05:10<1085:10:43,  2.61s/it]{'loss': 1.4008, 'grad_norm': 1.1919703483581543, 'learning_rate': 2.6400000000000003e-07, 'epoch': 1323.0}
  0%|          | 1324/1500000 [1:05:13<1080:26:24,  2.60s/it]                                                               0%|          | 1324/1500000 [1:05:13<1080:26:24,  2.60s/it]{'loss': 1.401, 'grad_norm': 1.6565052270889282, 'learning_rate': 2.6420000000000005e-07, 'epoch': 1324.0}
  0%|          | 1325/1500000 [1:05:16<1112:10:24,  2.67s/it]                                                               0%|          | 1325/1500000 [1:05:16<1112:10:24,  2.67s/it]{'loss': 1.4045, 'grad_norm': 1.2007063627243042, 'learning_rate': 2.644e-07, 'epoch': 1325.0}
  0%|          | 1326/1500000 [1:05:18<1098:08:22,  2.64s/it]                                                               0%|          | 1326/1500000 [1:05:18<1098:08:22,  2.64s/it]{'loss': 1.4092, 'grad_norm': 1.2004965543746948, 'learning_rate': 2.646e-07, 'epoch': 1326.0}
  0%|          | 1327/1500000 [1:05:21<1092:51:14,  2.63s/it]                                                               0%|          | 1327/1500000 [1:05:21<1092:51:14,  2.63s/it]{'loss': 1.3957, 'grad_norm': 1.191678762435913, 'learning_rate': 2.648e-07, 'epoch': 1327.0}
  0%|          | 1328/1500000 [1:05:24<1094:10:17,  2.63s/it]                                                               0%|          | 1328/1500000 [1:05:24<1094:10:17,  2.63s/it]{'loss': 1.3988, 'grad_norm': 1.6800037622451782, 'learning_rate': 2.65e-07, 'epoch': 1328.0}
  0%|          | 1329/1500000 [1:05:26<1093:03:52,  2.63s/it]                                                               0%|          | 1329/1500000 [1:05:26<1093:03:52,  2.63s/it]{'loss': 1.3994, 'grad_norm': 1.4923746585845947, 'learning_rate': 2.652e-07, 'epoch': 1329.0}
  0%|          | 1330/1500000 [1:05:29<1082:44:02,  2.60s/it]                                                               0%|          | 1330/1500000 [1:05:29<1082:44:02,  2.60s/it]{'loss': 1.4039, 'grad_norm': 1.853890061378479, 'learning_rate': 2.654e-07, 'epoch': 1330.0}
  0%|          | 1331/1500000 [1:05:31<1083:32:57,  2.60s/it]                                                               0%|          | 1331/1500000 [1:05:31<1083:32:57,  2.60s/it]{'loss': 1.4008, 'grad_norm': 14.769881248474121, 'learning_rate': 2.656e-07, 'epoch': 1331.0}
  0%|          | 1332/1500000 [1:05:34<1080:16:24,  2.59s/it]                                                               0%|          | 1332/1500000 [1:05:34<1080:16:24,  2.59s/it]{'loss': 1.4019, 'grad_norm': 1.7894017696380615, 'learning_rate': 2.658e-07, 'epoch': 1332.0}
  0%|          | 1333/1500000 [1:05:37<1084:26:58,  2.60s/it]                                                               0%|          | 1333/1500000 [1:05:37<1084:26:58,  2.60s/it]{'loss': 1.3994, 'grad_norm': 9.362361907958984, 'learning_rate': 2.66e-07, 'epoch': 1333.0}
  0%|          | 1334/1500000 [1:05:39<1082:22:37,  2.60s/it]                                                               0%|          | 1334/1500000 [1:05:39<1082:22:37,  2.60s/it]{'loss': 1.4033, 'grad_norm': 2.3098790645599365, 'learning_rate': 2.6620000000000004e-07, 'epoch': 1334.0}
  0%|          | 1335/1500000 [1:05:42<1090:46:16,  2.62s/it]                                                               0%|          | 1335/1500000 [1:05:42<1090:46:16,  2.62s/it]{'loss': 1.4014, 'grad_norm': 1.1578370332717896, 'learning_rate': 2.664e-07, 'epoch': 1335.0}
  0%|          | 1336/1500000 [1:05:44<1097:02:03,  2.64s/it]                                                               0%|          | 1336/1500000 [1:05:44<1097:02:03,  2.64s/it]{'loss': 1.3982, 'grad_norm': 1.6817866563796997, 'learning_rate': 2.6659999999999997e-07, 'epoch': 1336.0}
  0%|          | 1337/1500000 [1:05:47<1117:39:47,  2.68s/it]                                                               0%|          | 1337/1500000 [1:05:47<1117:39:47,  2.68s/it]{'loss': 1.3978, 'grad_norm': 2.666455030441284, 'learning_rate': 2.668e-07, 'epoch': 1337.0}
  0%|          | 1338/1500000 [1:05:50<1125:25:11,  2.70s/it]                                                               0%|          | 1338/1500000 [1:05:50<1125:25:11,  2.70s/it]{'loss': 1.4022, 'grad_norm': 1.7904373407363892, 'learning_rate': 2.67e-07, 'epoch': 1338.0}
  0%|          | 1339/1500000 [1:05:53<1137:30:27,  2.73s/it]                                                               0%|          | 1339/1500000 [1:05:53<1137:30:27,  2.73s/it]{'loss': 1.4054, 'grad_norm': 2.83716082572937, 'learning_rate': 2.672e-07, 'epoch': 1339.0}
  0%|          | 1340/1500000 [1:05:55<1129:52:27,  2.71s/it]                                                               0%|          | 1340/1500000 [1:05:55<1129:52:27,  2.71s/it]{'loss': 1.3839, 'grad_norm': 1.7031421661376953, 'learning_rate': 2.674e-07, 'epoch': 1340.0}
  0%|          | 1341/1500000 [1:05:58<1146:59:02,  2.76s/it]                                                               0%|          | 1341/1500000 [1:05:58<1146:59:02,  2.76s/it]{'loss': 1.4006, 'grad_norm': 7.442441940307617, 'learning_rate': 2.6760000000000004e-07, 'epoch': 1341.0}
  0%|          | 1342/1500000 [1:06:01<1162:35:47,  2.79s/it]                                                               0%|          | 1342/1500000 [1:06:01<1162:35:47,  2.79s/it]{'loss': 1.3994, 'grad_norm': 1.7760862112045288, 'learning_rate': 2.678e-07, 'epoch': 1342.0}
  0%|          | 1343/1500000 [1:06:04<1167:59:24,  2.81s/it]                                                               0%|          | 1343/1500000 [1:06:04<1167:59:24,  2.81s/it]{'loss': 1.389, 'grad_norm': 1.0660269260406494, 'learning_rate': 2.68e-07, 'epoch': 1343.0}
  0%|          | 1344/1500000 [1:06:07<1133:24:18,  2.72s/it]                                                               0%|          | 1344/1500000 [1:06:07<1133:24:18,  2.72s/it]{'loss': 1.397, 'grad_norm': 9.679337501525879, 'learning_rate': 2.6820000000000003e-07, 'epoch': 1344.0}
  0%|          | 1345/1500000 [1:06:09<1111:29:16,  2.67s/it]                                                               0%|          | 1345/1500000 [1:06:09<1111:29:16,  2.67s/it]{'loss': 1.3865, 'grad_norm': 9.845992088317871, 'learning_rate': 2.684e-07, 'epoch': 1345.0}
  0%|          | 1346/1500000 [1:06:12<1103:10:20,  2.65s/it]                                                               0%|          | 1346/1500000 [1:06:12<1103:10:20,  2.65s/it]{'loss': 1.3845, 'grad_norm': 1.1386035680770874, 'learning_rate': 2.686e-07, 'epoch': 1346.0}
  0%|          | 1347/1500000 [1:06:15<1126:03:37,  2.70s/it]                                                               0%|          | 1347/1500000 [1:06:15<1126:03:37,  2.70s/it]{'loss': 1.3919, 'grad_norm': 3.81473970413208, 'learning_rate': 2.6879999999999997e-07, 'epoch': 1347.0}
  0%|          | 1348/1500000 [1:06:17<1106:58:37,  2.66s/it]                                                               0%|          | 1348/1500000 [1:06:17<1106:58:37,  2.66s/it]{'loss': 1.3823, 'grad_norm': 7.118666172027588, 'learning_rate': 2.69e-07, 'epoch': 1348.0}
  0%|          | 1349/1500000 [1:06:20<1096:38:57,  2.63s/it]                                                               0%|          | 1349/1500000 [1:06:20<1096:38:57,  2.63s/it]{'loss': 1.3907, 'grad_norm': 1.8926937580108643, 'learning_rate': 2.692e-07, 'epoch': 1349.0}
  0%|          | 1350/1500000 [1:06:22<1090:08:35,  2.62s/it]                                                               0%|          | 1350/1500000 [1:06:22<1090:08:35,  2.62s/it]{'loss': 1.3857, 'grad_norm': 1.137237310409546, 'learning_rate': 2.694e-07, 'epoch': 1350.0}
  0%|          | 1351/1500000 [1:06:25<1112:38:36,  2.67s/it]                                                               0%|          | 1351/1500000 [1:06:25<1112:38:36,  2.67s/it]{'loss': 1.3885, 'grad_norm': 1.1106510162353516, 'learning_rate': 2.6960000000000003e-07, 'epoch': 1351.0}
  0%|          | 1352/1500000 [1:06:28<1133:24:39,  2.72s/it]                                                               0%|          | 1352/1500000 [1:06:28<1133:24:39,  2.72s/it]{'loss': 1.3855, 'grad_norm': 1.5073782205581665, 'learning_rate': 2.6980000000000005e-07, 'epoch': 1352.0}
  0%|          | 1353/1500000 [1:06:31<1121:30:12,  2.69s/it]                                                               0%|          | 1353/1500000 [1:06:31<1121:30:12,  2.69s/it]{'loss': 1.391, 'grad_norm': 1.1495800018310547, 'learning_rate': 2.7e-07, 'epoch': 1353.0}
  0%|          | 1354/1500000 [1:06:33<1153:32:45,  2.77s/it]                                                               0%|          | 1354/1500000 [1:06:33<1153:32:45,  2.77s/it]{'loss': 1.3906, 'grad_norm': 1.0940032005310059, 'learning_rate': 2.7019999999999997e-07, 'epoch': 1354.0}
  0%|          | 1355/1500000 [1:06:36<1142:13:03,  2.74s/it]                                                               0%|          | 1355/1500000 [1:06:36<1142:13:03,  2.74s/it]{'loss': 1.3819, 'grad_norm': 1.522459864616394, 'learning_rate': 2.704e-07, 'epoch': 1355.0}
  0%|          | 1356/1500000 [1:06:39<1154:25:30,  2.77s/it]                                                               0%|          | 1356/1500000 [1:06:39<1154:25:30,  2.77s/it]{'loss': 1.3873, 'grad_norm': 3.842418909072876, 'learning_rate': 2.706e-07, 'epoch': 1356.0}
  0%|          | 1357/1500000 [1:06:42<1160:05:59,  2.79s/it]                                                               0%|          | 1357/1500000 [1:06:42<1160:05:59,  2.79s/it]{'loss': 1.3864, 'grad_norm': 1.289214015007019, 'learning_rate': 2.708e-07, 'epoch': 1357.0}
  0%|          | 1358/1500000 [1:06:45<1162:51:16,  2.79s/it]                                                               0%|          | 1358/1500000 [1:06:45<1162:51:16,  2.79s/it]{'loss': 1.3878, 'grad_norm': 2.109623908996582, 'learning_rate': 2.7100000000000003e-07, 'epoch': 1358.0}
  0%|          | 1359/1500000 [1:06:47<1157:32:30,  2.78s/it]                                                               0%|          | 1359/1500000 [1:06:47<1157:32:30,  2.78s/it]{'loss': 1.3834, 'grad_norm': 1.0853848457336426, 'learning_rate': 2.712e-07, 'epoch': 1359.0}
  0%|          | 1360/1500000 [1:06:50<1161:48:57,  2.79s/it]                                                               0%|          | 1360/1500000 [1:06:50<1161:48:57,  2.79s/it]{'loss': 1.3803, 'grad_norm': 1.6759226322174072, 'learning_rate': 2.714e-07, 'epoch': 1360.0}
  0%|          | 1361/1500000 [1:06:53<1126:46:30,  2.71s/it]                                                               0%|          | 1361/1500000 [1:06:53<1126:46:30,  2.71s/it]{'loss': 1.3884, 'grad_norm': 1.3944453001022339, 'learning_rate': 2.716e-07, 'epoch': 1361.0}
  0%|          | 1362/1500000 [1:06:55<1103:49:26,  2.65s/it]                                                               0%|          | 1362/1500000 [1:06:55<1103:49:26,  2.65s/it]{'loss': 1.3767, 'grad_norm': 4.235990524291992, 'learning_rate': 2.7180000000000004e-07, 'epoch': 1362.0}
  0%|          | 1363/1500000 [1:06:58<1119:51:50,  2.69s/it]                                                               0%|          | 1363/1500000 [1:06:58<1119:51:50,  2.69s/it]{'loss': 1.375, 'grad_norm': 1.009158730506897, 'learning_rate': 2.72e-07, 'epoch': 1363.0}
  0%|          | 1364/1500000 [1:07:01<1128:57:45,  2.71s/it]                                                               0%|          | 1364/1500000 [1:07:01<1128:57:45,  2.71s/it]{'loss': 1.377, 'grad_norm': 1.434134602546692, 'learning_rate': 2.7219999999999996e-07, 'epoch': 1364.0}
  0%|          | 1365/1500000 [1:07:04<1135:20:15,  2.73s/it]                                                               0%|          | 1365/1500000 [1:07:04<1135:20:15,  2.73s/it]{'loss': 1.3828, 'grad_norm': 4.010992050170898, 'learning_rate': 2.724e-07, 'epoch': 1365.0}
  0%|          | 1366/1500000 [1:07:06<1116:51:21,  2.68s/it]                                                               0%|          | 1366/1500000 [1:07:06<1116:51:21,  2.68s/it]{'loss': 1.3786, 'grad_norm': 4.439945220947266, 'learning_rate': 2.726e-07, 'epoch': 1366.0}
  0%|          | 1367/1500000 [1:07:09<1095:53:49,  2.63s/it]                                                               0%|          | 1367/1500000 [1:07:09<1095:53:49,  2.63s/it]{'loss': 1.3831, 'grad_norm': 1.0618784427642822, 'learning_rate': 2.728e-07, 'epoch': 1367.0}
  0%|          | 1368/1500000 [1:07:11<1085:52:30,  2.61s/it]                                                               0%|          | 1368/1500000 [1:07:11<1085:52:30,  2.61s/it]{'loss': 1.38, 'grad_norm': 1.2139583826065063, 'learning_rate': 2.73e-07, 'epoch': 1368.0}
  0%|          | 1369/1500000 [1:07:14<1084:32:30,  2.61s/it]                                                               0%|          | 1369/1500000 [1:07:14<1084:32:30,  2.61s/it]{'loss': 1.3775, 'grad_norm': 2.2699506282806396, 'learning_rate': 2.7320000000000004e-07, 'epoch': 1369.0}
  0%|          | 1370/1500000 [1:07:17<1108:59:32,  2.66s/it]                                                               0%|          | 1370/1500000 [1:07:17<1108:59:32,  2.66s/it]{'loss': 1.3712, 'grad_norm': 1.287953495979309, 'learning_rate': 2.734e-07, 'epoch': 1370.0}
  0%|          | 1371/1500000 [1:07:19<1125:43:50,  2.70s/it]                                                               0%|          | 1371/1500000 [1:07:19<1125:43:50,  2.70s/it]{'loss': 1.3776, 'grad_norm': 3.000399351119995, 'learning_rate': 2.736e-07, 'epoch': 1371.0}
  0%|          | 1372/1500000 [1:07:22<1143:39:39,  2.75s/it]                                                               0%|          | 1372/1500000 [1:07:22<1143:39:39,  2.75s/it]{'loss': 1.3715, 'grad_norm': 1.7872745990753174, 'learning_rate': 2.7380000000000003e-07, 'epoch': 1372.0}
  0%|          | 1373/1500000 [1:07:25<1119:12:39,  2.69s/it]                                                               0%|          | 1373/1500000 [1:07:25<1119:12:39,  2.69s/it]{'loss': 1.3714, 'grad_norm': 2.044717311859131, 'learning_rate': 2.74e-07, 'epoch': 1373.0}
  0%|          | 1374/1500000 [1:07:27<1104:07:19,  2.65s/it]                                                               0%|          | 1374/1500000 [1:07:27<1104:07:19,  2.65s/it]{'loss': 1.3752, 'grad_norm': 1.1302075386047363, 'learning_rate': 2.742e-07, 'epoch': 1374.0}
  0%|          | 1375/1500000 [1:07:30<1118:56:05,  2.69s/it]                                                               0%|          | 1375/1500000 [1:07:30<1118:56:05,  2.69s/it]{'loss': 1.3795, 'grad_norm': 1.1180849075317383, 'learning_rate': 2.744e-07, 'epoch': 1375.0}
  0%|          | 1376/1500000 [1:07:33<1100:32:06,  2.64s/it]                                                               0%|          | 1376/1500000 [1:07:33<1100:32:06,  2.64s/it]{'loss': 1.3789, 'grad_norm': 1.2699353694915771, 'learning_rate': 2.746e-07, 'epoch': 1376.0}
  0%|          | 1377/1500000 [1:07:35<1087:51:37,  2.61s/it]                                                               0%|          | 1377/1500000 [1:07:35<1087:51:37,  2.61s/it]{'loss': 1.3786, 'grad_norm': 1.3427739143371582, 'learning_rate': 2.748e-07, 'epoch': 1377.0}
  0%|          | 1378/1500000 [1:07:38<1081:06:29,  2.60s/it]                                                               0%|          | 1378/1500000 [1:07:38<1081:06:29,  2.60s/it]{'loss': 1.3709, 'grad_norm': 10.180706977844238, 'learning_rate': 2.75e-07, 'epoch': 1378.0}
  0%|          | 1379/1500000 [1:07:40<1075:41:20,  2.58s/it]                                                               0%|          | 1379/1500000 [1:07:40<1075:41:20,  2.58s/it]{'loss': 1.3722, 'grad_norm': 1.1584367752075195, 'learning_rate': 2.7520000000000003e-07, 'epoch': 1379.0}
  0%|          | 1380/1500000 [1:07:43<1079:56:58,  2.59s/it]                                                               0%|          | 1380/1500000 [1:07:43<1079:56:58,  2.59s/it]{'loss': 1.3661, 'grad_norm': 1.2335643768310547, 'learning_rate': 2.7540000000000004e-07, 'epoch': 1380.0}
  0%|          | 1381/1500000 [1:07:46<1080:35:50,  2.60s/it]                                                               0%|          | 1381/1500000 [1:07:46<1080:35:50,  2.60s/it]{'loss': 1.3561, 'grad_norm': 3.7732694149017334, 'learning_rate': 2.756e-07, 'epoch': 1381.0}
  0%|          | 1382/1500000 [1:07:48<1074:08:35,  2.58s/it]                                                               0%|          | 1382/1500000 [1:07:48<1074:08:35,  2.58s/it]{'loss': 1.3706, 'grad_norm': 1.3124445676803589, 'learning_rate': 2.7579999999999997e-07, 'epoch': 1382.0}
  0%|          | 1383/1500000 [1:07:51<1073:36:08,  2.58s/it]                                                               0%|          | 1383/1500000 [1:07:51<1073:36:08,  2.58s/it]{'loss': 1.3673, 'grad_norm': 1.323119878768921, 'learning_rate': 2.76e-07, 'epoch': 1383.0}
  0%|          | 1384/1500000 [1:07:53<1067:09:01,  2.56s/it]                                                               0%|          | 1384/1500000 [1:07:53<1067:09:01,  2.56s/it]{'loss': 1.3648, 'grad_norm': 7.476142406463623, 'learning_rate': 2.762e-07, 'epoch': 1384.0}
  0%|          | 1385/1500000 [1:07:56<1058:14:18,  2.54s/it]                                                               0%|          | 1385/1500000 [1:07:56<1058:14:18,  2.54s/it]{'loss': 1.3623, 'grad_norm': 1.7018765211105347, 'learning_rate': 2.764e-07, 'epoch': 1385.0}
  0%|          | 1386/1500000 [1:07:58<1059:03:19,  2.54s/it]                                                               0%|          | 1386/1500000 [1:07:58<1059:03:19,  2.54s/it]{'loss': 1.3685, 'grad_norm': 2.210390329360962, 'learning_rate': 2.7660000000000003e-07, 'epoch': 1386.0}
  0%|          | 1387/1500000 [1:08:01<1110:13:27,  2.67s/it]                                                               0%|          | 1387/1500000 [1:08:01<1110:13:27,  2.67s/it]{'loss': 1.3642, 'grad_norm': 2.30310320854187, 'learning_rate': 2.768e-07, 'epoch': 1387.0}
  0%|          | 1388/1500000 [1:08:04<1129:45:37,  2.71s/it]                                                               0%|          | 1388/1500000 [1:08:04<1129:45:37,  2.71s/it]{'loss': 1.366, 'grad_norm': 6.469981670379639, 'learning_rate': 2.77e-07, 'epoch': 1388.0}
  0%|          | 1389/1500000 [1:08:07<1108:04:40,  2.66s/it]                                                               0%|          | 1389/1500000 [1:08:07<1108:04:40,  2.66s/it]{'loss': 1.3614, 'grad_norm': 1.4488171339035034, 'learning_rate': 2.772e-07, 'epoch': 1389.0}
  0%|          | 1390/1500000 [1:08:09<1129:18:05,  2.71s/it]                                                               0%|          | 1390/1500000 [1:08:09<1129:18:05,  2.71s/it]{'loss': 1.3619, 'grad_norm': 1.9697378873825073, 'learning_rate': 2.7740000000000004e-07, 'epoch': 1390.0}
  0%|          | 1391/1500000 [1:08:12<1141:29:29,  2.74s/it]                                                               0%|          | 1391/1500000 [1:08:12<1141:29:29,  2.74s/it]{'loss': 1.3643, 'grad_norm': 1.365486741065979, 'learning_rate': 2.776e-07, 'epoch': 1391.0}
  0%|          | 1392/1500000 [1:08:15<1149:12:25,  2.76s/it]                                                               0%|          | 1392/1500000 [1:08:15<1149:12:25,  2.76s/it]{'loss': 1.3554, 'grad_norm': 1.4024288654327393, 'learning_rate': 2.7779999999999996e-07, 'epoch': 1392.0}
  0%|          | 1393/1500000 [1:08:18<1157:16:09,  2.78s/it]                                                               0%|          | 1393/1500000 [1:08:18<1157:16:09,  2.78s/it]{'loss': 1.3727, 'grad_norm': 4.454107761383057, 'learning_rate': 2.78e-07, 'epoch': 1393.0}
  0%|          | 1394/1500000 [1:08:21<1161:01:59,  2.79s/it]                                                               0%|          | 1394/1500000 [1:08:21<1161:01:59,  2.79s/it]{'loss': 1.3585, 'grad_norm': 16.124792098999023, 'learning_rate': 2.782e-07, 'epoch': 1394.0}
  0%|          | 1395/1500000 [1:08:23<1122:15:26,  2.70s/it]                                                               0%|          | 1395/1500000 [1:08:23<1122:15:26,  2.70s/it]{'loss': 1.3497, 'grad_norm': 1.891880750656128, 'learning_rate': 2.784e-07, 'epoch': 1395.0}
  0%|          | 1396/1500000 [1:08:26<1136:08:14,  2.73s/it]                                                               0%|          | 1396/1500000 [1:08:26<1136:08:14,  2.73s/it]{'loss': 1.3599, 'grad_norm': 9.373016357421875, 'learning_rate': 2.786e-07, 'epoch': 1396.0}
  0%|          | 1397/1500000 [1:08:28<1117:14:02,  2.68s/it]                                                               0%|          | 1397/1500000 [1:08:28<1117:14:02,  2.68s/it]{'loss': 1.3571, 'grad_norm': 1.6305392980575562, 'learning_rate': 2.7880000000000003e-07, 'epoch': 1397.0}
  0%|          | 1398/1500000 [1:08:31<1132:42:25,  2.72s/it]                                                               0%|          | 1398/1500000 [1:08:31<1132:42:25,  2.72s/it]{'loss': 1.3636, 'grad_norm': 1.4270237684249878, 'learning_rate': 2.79e-07, 'epoch': 1398.0}
  0%|          | 1399/1500000 [1:08:34<1130:46:41,  2.72s/it]                                                               0%|          | 1399/1500000 [1:08:34<1130:46:41,  2.72s/it]{'loss': 1.361, 'grad_norm': 1.9428881406784058, 'learning_rate': 2.792e-07, 'epoch': 1399.0}
  0%|          | 1400/1500000 [1:08:37<1142:47:55,  2.75s/it]                                                               0%|          | 1400/1500000 [1:08:37<1142:47:55,  2.75s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.3568, 'grad_norm': 36.85909652709961, 'learning_rate': 2.7940000000000003e-07, 'epoch': 1400.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.06it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.08s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.35s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.30s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.37s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A                                                             
                                             [A  0%|          | 1400/1500000 [1:09:20<1142:47:55,  2.75s/it]
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1200] due to args.save_total_limit
{'eval_loss': 3.414076328277588, 'eval_wer': 0.9991974317817014, 'eval_cer': 0.9432886234579988, 'eval_runtime': 17.1902, 'eval_samples_per_second': 57.184, 'eval_steps_per_second': 0.407, 'epoch': 1400.0}
  0%|          | 1401/1500000 [1:09:39<8512:15:28, 20.45s/it]                                                               0%|          | 1401/1500000 [1:09:39<8512:15:28, 20.45s/it]{'loss': 1.3651, 'grad_norm': 1.5228215456008911, 'learning_rate': 2.796e-07, 'epoch': 1401.0}
  0%|          | 1402/1500000 [1:09:41<6288:29:52, 15.11s/it]                                                               0%|          | 1402/1500000 [1:09:41<6288:29:52, 15.11s/it]{'loss': 1.3548, 'grad_norm': 6.711967468261719, 'learning_rate': 2.798e-07, 'epoch': 1402.0}
  0%|          | 1403/1500000 [1:09:44<4723:59:47, 11.35s/it]                                                               0%|          | 1403/1500000 [1:09:44<4723:59:47, 11.35s/it]{'loss': 1.3566, 'grad_norm': 1.6191456317901611, 'learning_rate': 2.8e-07, 'epoch': 1403.0}
  0%|          | 1404/1500000 [1:09:46<3639:20:58,  8.74s/it]                                                               0%|          | 1404/1500000 [1:09:46<3639:20:58,  8.74s/it]{'loss': 1.3513, 'grad_norm': 2.303495407104492, 'learning_rate': 2.802e-07, 'epoch': 1404.0}
  0%|          | 1405/1500000 [1:09:49<2906:33:26,  6.98s/it]                                                               0%|          | 1405/1500000 [1:09:49<2906:33:26,  6.98s/it]{'loss': 1.3583, 'grad_norm': 2.4960920810699463, 'learning_rate': 2.804e-07, 'epoch': 1405.0}
  0%|          | 1406/1500000 [1:09:52<2378:55:00,  5.71s/it]                                                               0%|          | 1406/1500000 [1:09:52<2378:55:00,  5.71s/it]{'loss': 1.3569, 'grad_norm': 1.5969171524047852, 'learning_rate': 2.806e-07, 'epoch': 1406.0}
  0%|          | 1407/1500000 [1:09:55<2009:52:53,  4.83s/it]                                                               0%|          | 1407/1500000 [1:09:55<2009:52:53,  4.83s/it]{'loss': 1.3479, 'grad_norm': 1.3007875680923462, 'learning_rate': 2.808e-07, 'epoch': 1407.0}
  0%|          | 1408/1500000 [1:09:58<1774:59:40,  4.26s/it]                                                               0%|          | 1408/1500000 [1:09:58<1774:59:40,  4.26s/it]{'loss': 1.3511, 'grad_norm': 10.36681079864502, 'learning_rate': 2.8100000000000004e-07, 'epoch': 1408.0}
  0%|          | 1409/1500000 [1:10:00<1541:23:38,  3.70s/it]                                                               0%|          | 1409/1500000 [1:10:00<1541:23:38,  3.70s/it]{'loss': 1.3561, 'grad_norm': 1.2003405094146729, 'learning_rate': 2.812e-07, 'epoch': 1409.0}
  0%|          | 1410/1500000 [1:10:03<1423:37:58,  3.42s/it]                                                               0%|          | 1410/1500000 [1:10:03<1423:37:58,  3.42s/it]{'loss': 1.3494, 'grad_norm': 1.014515995979309, 'learning_rate': 2.8139999999999997e-07, 'epoch': 1410.0}
  0%|          | 1411/1500000 [1:10:05<1315:57:26,  3.16s/it]                                                               0%|          | 1411/1500000 [1:10:05<1315:57:26,  3.16s/it]{'loss': 1.348, 'grad_norm': 4.8200836181640625, 'learning_rate': 2.816e-07, 'epoch': 1411.0}
  0%|          | 1412/1500000 [1:10:08<1233:41:32,  2.96s/it]                                                               0%|          | 1412/1500000 [1:10:08<1233:41:32,  2.96s/it]{'loss': 1.3598, 'grad_norm': 3.0936293601989746, 'learning_rate': 2.818e-07, 'epoch': 1412.0}
  0%|          | 1413/1500000 [1:10:10<1173:40:11,  2.82s/it]                                                               0%|          | 1413/1500000 [1:10:10<1173:40:11,  2.82s/it]{'loss': 1.3579, 'grad_norm': 1.1845721006393433, 'learning_rate': 2.82e-07, 'epoch': 1413.0}
  0%|          | 1414/1500000 [1:10:13<1135:10:50,  2.73s/it]                                                               0%|          | 1414/1500000 [1:10:13<1135:10:50,  2.73s/it]{'loss': 1.3532, 'grad_norm': 1.2270342111587524, 'learning_rate': 2.822e-07, 'epoch': 1414.0}
  0%|          | 1415/1500000 [1:10:15<1105:23:17,  2.66s/it]                                                               0%|          | 1415/1500000 [1:10:15<1105:23:17,  2.66s/it]{'loss': 1.3471, 'grad_norm': 4.795445442199707, 'learning_rate': 2.824e-07, 'epoch': 1415.0}
  0%|          | 1416/1500000 [1:10:18<1088:17:22,  2.61s/it]                                                               0%|          | 1416/1500000 [1:10:18<1088:17:22,  2.61s/it]{'loss': 1.3511, 'grad_norm': 1.3848652839660645, 'learning_rate': 2.826e-07, 'epoch': 1416.0}
  0%|          | 1417/1500000 [1:10:20<1072:30:27,  2.58s/it]                                                               0%|          | 1417/1500000 [1:10:20<1072:30:27,  2.58s/it]{'loss': 1.345, 'grad_norm': 1.6046316623687744, 'learning_rate': 2.828e-07, 'epoch': 1417.0}
  0%|          | 1418/1500000 [1:10:23<1063:44:27,  2.56s/it]                                                               0%|          | 1418/1500000 [1:10:23<1063:44:27,  2.56s/it]{'loss': 1.3542, 'grad_norm': 3.2131052017211914, 'learning_rate': 2.8300000000000003e-07, 'epoch': 1418.0}
  0%|          | 1419/1500000 [1:10:25<1058:34:31,  2.54s/it]                                                               0%|          | 1419/1500000 [1:10:26<1058:34:31,  2.54s/it]{'loss': 1.3483, 'grad_norm': 1.5236873626708984, 'learning_rate': 2.8320000000000005e-07, 'epoch': 1419.0}
  0%|          | 1420/1500000 [1:10:28<1055:54:34,  2.54s/it]                                                               0%|          | 1420/1500000 [1:10:28<1055:54:34,  2.54s/it]{'loss': 1.34, 'grad_norm': 1.208242416381836, 'learning_rate': 2.834e-07, 'epoch': 1420.0}
  0%|          | 1421/1500000 [1:10:31<1053:14:10,  2.53s/it]                                                               0%|          | 1421/1500000 [1:10:31<1053:14:10,  2.53s/it]{'loss': 1.345, 'grad_norm': 1.0786980390548706, 'learning_rate': 2.8359999999999997e-07, 'epoch': 1421.0}
  0%|          | 1422/1500000 [1:10:33<1087:18:32,  2.61s/it]                                                               0%|          | 1422/1500000 [1:10:33<1087:18:32,  2.61s/it]{'loss': 1.3444, 'grad_norm': 1.5592403411865234, 'learning_rate': 2.838e-07, 'epoch': 1422.0}
  0%|          | 1423/1500000 [1:10:36<1103:42:54,  2.65s/it]                                                               0%|          | 1423/1500000 [1:10:36<1103:42:54,  2.65s/it]{'loss': 1.3431, 'grad_norm': 4.182263374328613, 'learning_rate': 2.84e-07, 'epoch': 1423.0}
  0%|          | 1424/1500000 [1:10:39<1082:37:20,  2.60s/it]                                                               0%|          | 1424/1500000 [1:10:39<1082:37:20,  2.60s/it]{'loss': 1.3487, 'grad_norm': 1.1404471397399902, 'learning_rate': 2.842e-07, 'epoch': 1424.0}
  0%|          | 1425/1500000 [1:10:41<1068:16:41,  2.57s/it]                                                               0%|          | 1425/1500000 [1:10:41<1068:16:41,  2.57s/it]{'loss': 1.3385, 'grad_norm': 2.7052690982818604, 'learning_rate': 2.8440000000000003e-07, 'epoch': 1425.0}
  0%|          | 1426/1500000 [1:10:44<1061:08:04,  2.55s/it]                                                               0%|          | 1426/1500000 [1:10:44<1061:08:04,  2.55s/it]{'loss': 1.3432, 'grad_norm': 21.00425910949707, 'learning_rate': 2.846e-07, 'epoch': 1426.0}
  0%|          | 1427/1500000 [1:10:46<1094:26:02,  2.63s/it]                                                               0%|          | 1427/1500000 [1:10:46<1094:26:02,  2.63s/it]{'loss': 1.3462, 'grad_norm': 1.1951056718826294, 'learning_rate': 2.848e-07, 'epoch': 1427.0}
  0%|          | 1428/1500000 [1:10:49<1108:41:36,  2.66s/it]                                                               0%|          | 1428/1500000 [1:10:49<1108:41:36,  2.66s/it]{'loss': 1.344, 'grad_norm': 1.7798277139663696, 'learning_rate': 2.85e-07, 'epoch': 1428.0}
  0%|          | 1429/1500000 [1:10:52<1101:40:53,  2.65s/it]                                                               0%|          | 1429/1500000 [1:10:52<1101:40:53,  2.65s/it]{'loss': 1.3356, 'grad_norm': 3.9548890590667725, 'learning_rate': 2.852e-07, 'epoch': 1429.0}
  0%|          | 1430/1500000 [1:10:54<1088:03:20,  2.61s/it]                                                               0%|          | 1430/1500000 [1:10:54<1088:03:20,  2.61s/it]{'loss': 1.3405, 'grad_norm': 1.314887523651123, 'learning_rate': 2.854e-07, 'epoch': 1430.0}
  0%|          | 1431/1500000 [1:10:57<1073:31:13,  2.58s/it]                                                               0%|          | 1431/1500000 [1:10:57<1073:31:13,  2.58s/it]{'loss': 1.3388, 'grad_norm': 1.4159756898880005, 'learning_rate': 2.856e-07, 'epoch': 1431.0}
  0%|          | 1432/1500000 [1:10:59<1062:33:21,  2.55s/it]                                                               0%|          | 1432/1500000 [1:10:59<1062:33:21,  2.55s/it]{'loss': 1.3266, 'grad_norm': 1.203281283378601, 'learning_rate': 2.858e-07, 'epoch': 1432.0}
  0%|          | 1433/1500000 [1:11:02<1093:26:04,  2.63s/it]                                                               0%|          | 1433/1500000 [1:11:02<1093:26:04,  2.63s/it]{'loss': 1.3426, 'grad_norm': 1.6925067901611328, 'learning_rate': 2.86e-07, 'epoch': 1433.0}
  0%|          | 1434/1500000 [1:11:05<1116:13:57,  2.68s/it]                                                               0%|          | 1434/1500000 [1:11:05<1116:13:57,  2.68s/it]{'loss': 1.3393, 'grad_norm': 1.1116178035736084, 'learning_rate': 2.862e-07, 'epoch': 1434.0}
  0%|          | 1435/1500000 [1:11:08<1141:44:19,  2.74s/it]                                                               0%|          | 1435/1500000 [1:11:08<1141:44:19,  2.74s/it]{'loss': 1.3378, 'grad_norm': 2.7037899494171143, 'learning_rate': 2.864e-07, 'epoch': 1435.0}
  0%|          | 1436/1500000 [1:11:10<1122:34:01,  2.70s/it]                                                               0%|          | 1436/1500000 [1:11:10<1122:34:01,  2.70s/it]{'loss': 1.3313, 'grad_norm': 1.349428415298462, 'learning_rate': 2.8660000000000004e-07, 'epoch': 1436.0}
  0%|          | 1437/1500000 [1:11:13<1143:05:09,  2.75s/it]                                                               0%|          | 1437/1500000 [1:11:13<1143:05:09,  2.75s/it]{'loss': 1.3387, 'grad_norm': 1.5243778228759766, 'learning_rate': 2.8680000000000005e-07, 'epoch': 1437.0}
  0%|          | 1438/1500000 [1:11:16<1143:47:19,  2.75s/it]                                                               0%|          | 1438/1500000 [1:11:16<1143:47:19,  2.75s/it]{'loss': 1.3382, 'grad_norm': 6.515378952026367, 'learning_rate': 2.8699999999999996e-07, 'epoch': 1438.0}
  0%|          | 1439/1500000 [1:11:19<1124:54:52,  2.70s/it]                                                               0%|          | 1439/1500000 [1:11:19<1124:54:52,  2.70s/it]{'loss': 1.3426, 'grad_norm': 9.838292121887207, 'learning_rate': 2.872e-07, 'epoch': 1439.0}
  0%|          | 1440/1500000 [1:11:21<1112:50:12,  2.67s/it]                                                               0%|          | 1440/1500000 [1:11:21<1112:50:12,  2.67s/it]{'loss': 1.3271, 'grad_norm': 1.6769568920135498, 'learning_rate': 2.874e-07, 'epoch': 1440.0}
  0%|          | 1441/1500000 [1:11:24<1129:02:50,  2.71s/it]                                                               0%|          | 1441/1500000 [1:11:24<1129:02:50,  2.71s/it]{'loss': 1.3299, 'grad_norm': 4.3925089836120605, 'learning_rate': 2.876e-07, 'epoch': 1441.0}
  0%|          | 1442/1500000 [1:11:27<1147:04:33,  2.76s/it]                                                               0%|          | 1442/1500000 [1:11:27<1147:04:33,  2.76s/it]{'loss': 1.3298, 'grad_norm': 19.329421997070312, 'learning_rate': 2.878e-07, 'epoch': 1442.0}
  0%|          | 1443/1500000 [1:11:30<1178:46:35,  2.83s/it]                                                               0%|          | 1443/1500000 [1:11:30<1178:46:35,  2.83s/it]{'loss': 1.3298, 'grad_norm': 6.762463569641113, 'learning_rate': 2.88e-07, 'epoch': 1443.0}
  0%|          | 1444/1500000 [1:11:33<1172:52:54,  2.82s/it]                                                               0%|          | 1444/1500000 [1:11:33<1172:52:54,  2.82s/it]{'loss': 1.3386, 'grad_norm': 1.9372512102127075, 'learning_rate': 2.882e-07, 'epoch': 1444.0}
  0%|          | 1445/1500000 [1:11:35<1161:24:30,  2.79s/it]                                                               0%|          | 1445/1500000 [1:11:35<1161:24:30,  2.79s/it]{'loss': 1.3332, 'grad_norm': 1.471764087677002, 'learning_rate': 2.884e-07, 'epoch': 1445.0}
  0%|          | 1446/1500000 [1:11:38<1128:00:35,  2.71s/it]                                                               0%|          | 1446/1500000 [1:11:38<1128:00:35,  2.71s/it]{'loss': 1.3281, 'grad_norm': 1.177268147468567, 'learning_rate': 2.8860000000000003e-07, 'epoch': 1446.0}
  0%|          | 1447/1500000 [1:11:40<1108:46:45,  2.66s/it]                                                               0%|          | 1447/1500000 [1:11:40<1108:46:45,  2.66s/it]{'loss': 1.3333, 'grad_norm': 1.3548986911773682, 'learning_rate': 2.8880000000000004e-07, 'epoch': 1447.0}
  0%|          | 1448/1500000 [1:11:43<1104:46:54,  2.65s/it]                                                               0%|          | 1448/1500000 [1:11:43<1104:46:54,  2.65s/it]{'loss': 1.3325, 'grad_norm': 1.157629132270813, 'learning_rate': 2.89e-07, 'epoch': 1448.0}
  0%|          | 1449/1500000 [1:11:46<1084:01:53,  2.60s/it]                                                               0%|          | 1449/1500000 [1:11:46<1084:01:53,  2.60s/it]{'loss': 1.3287, 'grad_norm': 7.755483150482178, 'learning_rate': 2.8919999999999997e-07, 'epoch': 1449.0}
  0%|          | 1450/1500000 [1:11:48<1068:40:13,  2.57s/it]                                                               0%|          | 1450/1500000 [1:11:48<1068:40:13,  2.57s/it]{'loss': 1.3309, 'grad_norm': 1.1403310298919678, 'learning_rate': 2.894e-07, 'epoch': 1450.0}
  0%|          | 1451/1500000 [1:11:51<1066:18:12,  2.56s/it]                                                               0%|          | 1451/1500000 [1:11:51<1066:18:12,  2.56s/it]{'loss': 1.3337, 'grad_norm': 10.3389892578125, 'learning_rate': 2.896e-07, 'epoch': 1451.0}
  0%|          | 1452/1500000 [1:11:53<1066:04:05,  2.56s/it]                                                               0%|          | 1452/1500000 [1:11:53<1066:04:05,  2.56s/it]{'loss': 1.3248, 'grad_norm': 1.0471032857894897, 'learning_rate': 2.898e-07, 'epoch': 1452.0}
  0%|          | 1453/1500000 [1:11:56<1064:09:48,  2.56s/it]                                                               0%|          | 1453/1500000 [1:11:56<1064:09:48,  2.56s/it]{'loss': 1.3307, 'grad_norm': 3.3746304512023926, 'learning_rate': 2.9000000000000003e-07, 'epoch': 1453.0}
  0%|          | 1454/1500000 [1:11:58<1060:24:33,  2.55s/it]                                                               0%|          | 1454/1500000 [1:11:58<1060:24:33,  2.55s/it]{'loss': 1.3283, 'grad_norm': 3.6395623683929443, 'learning_rate': 2.9020000000000004e-07, 'epoch': 1454.0}
  0%|          | 1455/1500000 [1:12:01<1102:04:49,  2.65s/it]                                                               0%|          | 1455/1500000 [1:12:01<1102:04:49,  2.65s/it]{'loss': 1.3245, 'grad_norm': 1.8016352653503418, 'learning_rate': 2.904e-07, 'epoch': 1455.0}
  0%|          | 1456/1500000 [1:12:04<1095:19:02,  2.63s/it]                                                               0%|          | 1456/1500000 [1:12:04<1095:19:02,  2.63s/it]{'loss': 1.3183, 'grad_norm': 1.9183051586151123, 'learning_rate': 2.906e-07, 'epoch': 1456.0}
  0%|          | 1457/1500000 [1:12:06<1080:54:04,  2.60s/it]                                                               0%|          | 1457/1500000 [1:12:06<1080:54:04,  2.60s/it]{'loss': 1.326, 'grad_norm': 2.018080949783325, 'learning_rate': 2.908e-07, 'epoch': 1457.0}
  0%|          | 1458/1500000 [1:12:09<1117:07:02,  2.68s/it]                                                               0%|          | 1458/1500000 [1:12:09<1117:07:02,  2.68s/it]{'loss': 1.3235, 'grad_norm': 1.6797009706497192, 'learning_rate': 2.91e-07, 'epoch': 1458.0}
  0%|          | 1459/1500000 [1:12:12<1104:59:05,  2.65s/it]                                                               0%|          | 1459/1500000 [1:12:12<1104:59:05,  2.65s/it]{'loss': 1.3167, 'grad_norm': 1.2731542587280273, 'learning_rate': 2.912e-07, 'epoch': 1459.0}
  0%|          | 1460/1500000 [1:12:14<1087:29:25,  2.61s/it]                                                               0%|          | 1460/1500000 [1:12:14<1087:29:25,  2.61s/it]{'loss': 1.3272, 'grad_norm': 2.2445919513702393, 'learning_rate': 2.914e-07, 'epoch': 1460.0}
  0%|          | 1461/1500000 [1:12:17<1096:34:15,  2.63s/it]                                                               0%|          | 1461/1500000 [1:12:17<1096:34:15,  2.63s/it]{'loss': 1.3231, 'grad_norm': 1.2607983350753784, 'learning_rate': 2.916e-07, 'epoch': 1461.0}
  0%|          | 1462/1500000 [1:12:20<1118:15:16,  2.69s/it]                                                               0%|          | 1462/1500000 [1:12:20<1118:15:16,  2.69s/it]{'loss': 1.3206, 'grad_norm': 2.846794843673706, 'learning_rate': 2.918e-07, 'epoch': 1462.0}
  0%|          | 1463/1500000 [1:12:22<1097:13:40,  2.64s/it]                                                               0%|          | 1463/1500000 [1:12:22<1097:13:40,  2.64s/it]{'loss': 1.3185, 'grad_norm': 1.7299869060516357, 'learning_rate': 2.92e-07, 'epoch': 1463.0}
  0%|          | 1464/1500000 [1:12:25<1088:28:22,  2.61s/it]                                                               0%|          | 1464/1500000 [1:12:25<1088:28:22,  2.61s/it]{'loss': 1.3176, 'grad_norm': 5.869598388671875, 'learning_rate': 2.9220000000000004e-07, 'epoch': 1464.0}
  0%|          | 1465/1500000 [1:12:27<1083:57:38,  2.60s/it]                                                               0%|          | 1465/1500000 [1:12:27<1083:57:38,  2.60s/it]{'loss': 1.3103, 'grad_norm': 2.411006212234497, 'learning_rate': 2.9240000000000005e-07, 'epoch': 1465.0}
  0%|          | 1466/1500000 [1:12:30<1109:16:22,  2.66s/it]                                                               0%|          | 1466/1500000 [1:12:30<1109:16:22,  2.66s/it]{'loss': 1.3095, 'grad_norm': 3.1169204711914062, 'learning_rate': 2.9259999999999996e-07, 'epoch': 1466.0}
  0%|          | 1467/1500000 [1:12:33<1129:04:18,  2.71s/it]                                                               0%|          | 1467/1500000 [1:12:33<1129:04:18,  2.71s/it]{'loss': 1.3238, 'grad_norm': 5.482935905456543, 'learning_rate': 2.928e-07, 'epoch': 1467.0}
  0%|          | 1468/1500000 [1:12:36<1143:36:32,  2.75s/it]                                                               0%|          | 1468/1500000 [1:12:36<1143:36:32,  2.75s/it]{'loss': 1.3181, 'grad_norm': 1.556762456893921, 'learning_rate': 2.93e-07, 'epoch': 1468.0}
  0%|          | 1469/1500000 [1:12:38<1110:10:06,  2.67s/it]                                                               0%|          | 1469/1500000 [1:12:38<1110:10:06,  2.67s/it]{'loss': 1.3113, 'grad_norm': 3.7208986282348633, 'learning_rate': 2.932e-07, 'epoch': 1469.0}
  0%|          | 1470/1500000 [1:12:41<1134:52:02,  2.73s/it]                                                               0%|          | 1470/1500000 [1:12:41<1134:52:02,  2.73s/it]{'loss': 1.3149, 'grad_norm': 3.2683143615722656, 'learning_rate': 2.934e-07, 'epoch': 1470.0}
  0%|          | 1471/1500000 [1:12:44<1108:04:09,  2.66s/it]                                                               0%|          | 1471/1500000 [1:12:44<1108:04:09,  2.66s/it]{'loss': 1.3128, 'grad_norm': 3.0271852016448975, 'learning_rate': 2.9360000000000003e-07, 'epoch': 1471.0}
  0%|          | 1472/1500000 [1:12:46<1092:46:19,  2.63s/it]                                                               0%|          | 1472/1500000 [1:12:46<1092:46:19,  2.63s/it]{'loss': 1.3122, 'grad_norm': 2.053783416748047, 'learning_rate': 2.938e-07, 'epoch': 1472.0}
  0%|          | 1473/1500000 [1:12:49<1082:35:43,  2.60s/it]                                                               0%|          | 1473/1500000 [1:12:49<1082:35:43,  2.60s/it]{'loss': 1.3093, 'grad_norm': 1.1635007858276367, 'learning_rate': 2.94e-07, 'epoch': 1473.0}
  0%|          | 1474/1500000 [1:12:51<1074:23:00,  2.58s/it]                                                               0%|          | 1474/1500000 [1:12:51<1074:23:00,  2.58s/it]{'loss': 1.3144, 'grad_norm': 1.5174158811569214, 'learning_rate': 2.9420000000000003e-07, 'epoch': 1474.0}
  0%|          | 1475/1500000 [1:12:54<1066:13:20,  2.56s/it]                                                               0%|          | 1475/1500000 [1:12:54<1066:13:20,  2.56s/it]{'loss': 1.3071, 'grad_norm': 1.6312217712402344, 'learning_rate': 2.9440000000000004e-07, 'epoch': 1475.0}
  0%|          | 1476/1500000 [1:12:56<1065:35:17,  2.56s/it]                                                               0%|          | 1476/1500000 [1:12:56<1065:35:17,  2.56s/it]{'loss': 1.3182, 'grad_norm': 1.21193528175354, 'learning_rate': 2.946e-07, 'epoch': 1476.0}
  0%|          | 1477/1500000 [1:12:59<1074:29:11,  2.58s/it]                                                               0%|          | 1477/1500000 [1:12:59<1074:29:11,  2.58s/it]{'loss': 1.3106, 'grad_norm': 6.325453758239746, 'learning_rate': 2.9479999999999997e-07, 'epoch': 1477.0}
  0%|          | 1478/1500000 [1:13:02<1074:05:24,  2.58s/it]                                                               0%|          | 1478/1500000 [1:13:02<1074:05:24,  2.58s/it]{'loss': 1.3205, 'grad_norm': 1.424786925315857, 'learning_rate': 2.95e-07, 'epoch': 1478.0}
  0%|          | 1479/1500000 [1:13:04<1062:46:57,  2.55s/it]                                                               0%|          | 1479/1500000 [1:13:04<1062:46:57,  2.55s/it]{'loss': 1.3109, 'grad_norm': 5.309471130371094, 'learning_rate': 2.952e-07, 'epoch': 1479.0}
  0%|          | 1480/1500000 [1:13:07<1055:11:54,  2.53s/it]                                                               0%|          | 1480/1500000 [1:13:07<1055:11:54,  2.53s/it]{'loss': 1.3141, 'grad_norm': 4.316186428070068, 'learning_rate': 2.954e-07, 'epoch': 1480.0}
  0%|          | 1481/1500000 [1:13:09<1052:38:36,  2.53s/it]                                                               0%|          | 1481/1500000 [1:13:09<1052:38:36,  2.53s/it]{'loss': 1.3062, 'grad_norm': 3.2277426719665527, 'learning_rate': 2.956e-07, 'epoch': 1481.0}
  0%|          | 1482/1500000 [1:13:12<1054:26:03,  2.53s/it]                                                               0%|          | 1482/1500000 [1:13:12<1054:26:03,  2.53s/it]{'loss': 1.3095, 'grad_norm': 1.2777562141418457, 'learning_rate': 2.9580000000000004e-07, 'epoch': 1482.0}
  0%|          | 1483/1500000 [1:13:14<1096:42:21,  2.63s/it]                                                               0%|          | 1483/1500000 [1:13:14<1096:42:21,  2.63s/it]{'loss': 1.3088, 'grad_norm': 2.058126449584961, 'learning_rate': 2.96e-07, 'epoch': 1483.0}
  0%|          | 1484/1500000 [1:13:17<1083:23:41,  2.60s/it]                                                               0%|          | 1484/1500000 [1:13:17<1083:23:41,  2.60s/it]{'loss': 1.3041, 'grad_norm': 1.1416889429092407, 'learning_rate': 2.962e-07, 'epoch': 1484.0}
  0%|          | 1485/1500000 [1:13:20<1079:55:48,  2.59s/it]                                                               0%|          | 1485/1500000 [1:13:20<1079:55:48,  2.59s/it]{'loss': 1.3111, 'grad_norm': 1.4873642921447754, 'learning_rate': 2.964e-07, 'epoch': 1485.0}
  0%|          | 1486/1500000 [1:13:22<1075:30:10,  2.58s/it]                                                               0%|          | 1486/1500000 [1:13:22<1075:30:10,  2.58s/it]{'loss': 1.3142, 'grad_norm': 2.338986873626709, 'learning_rate': 2.966e-07, 'epoch': 1486.0}
  0%|          | 1487/1500000 [1:13:25<1067:42:08,  2.57s/it]                                                               0%|          | 1487/1500000 [1:13:25<1067:42:08,  2.57s/it]{'loss': 1.3074, 'grad_norm': 1.1752691268920898, 'learning_rate': 2.968e-07, 'epoch': 1487.0}
  0%|          | 1488/1500000 [1:13:27<1058:30:43,  2.54s/it]                                                               0%|          | 1488/1500000 [1:13:27<1058:30:43,  2.54s/it]{'loss': 1.3048, 'grad_norm': 2.4705514907836914, 'learning_rate': 2.97e-07, 'epoch': 1488.0}
  0%|          | 1489/1500000 [1:13:30<1059:16:32,  2.54s/it]                                                               0%|          | 1489/1500000 [1:13:30<1059:16:32,  2.54s/it]{'loss': 1.3119, 'grad_norm': 2.612865447998047, 'learning_rate': 2.972e-07, 'epoch': 1489.0}
  0%|          | 1490/1500000 [1:13:32<1093:45:46,  2.63s/it]                                                               0%|          | 1490/1500000 [1:13:33<1093:45:46,  2.63s/it]{'loss': 1.3058, 'grad_norm': 1.259053349494934, 'learning_rate': 2.974e-07, 'epoch': 1490.0}
  0%|          | 1491/1500000 [1:13:35<1081:06:09,  2.60s/it]                                                               0%|          | 1491/1500000 [1:13:35<1081:06:09,  2.60s/it]{'loss': 1.3172, 'grad_norm': 2.268846273422241, 'learning_rate': 2.976e-07, 'epoch': 1491.0}
  0%|          | 1492/1500000 [1:13:38<1079:12:50,  2.59s/it]                                                               0%|          | 1492/1500000 [1:13:38<1079:12:50,  2.59s/it]{'loss': 1.3081, 'grad_norm': 1.1445338726043701, 'learning_rate': 2.9780000000000003e-07, 'epoch': 1492.0}
  0%|          | 1493/1500000 [1:13:40<1106:17:29,  2.66s/it]                                                               0%|          | 1493/1500000 [1:13:40<1106:17:29,  2.66s/it]{'loss': 1.2994, 'grad_norm': 1.7516018152236938, 'learning_rate': 2.9800000000000005e-07, 'epoch': 1493.0}
  0%|          | 1494/1500000 [1:13:43<1089:27:09,  2.62s/it]                                                               0%|          | 1494/1500000 [1:13:43<1089:27:09,  2.62s/it]{'loss': 1.3044, 'grad_norm': 1.1690900325775146, 'learning_rate': 2.9819999999999996e-07, 'epoch': 1494.0}
  0%|          | 1495/1500000 [1:13:45<1079:36:05,  2.59s/it]                                                               0%|          | 1495/1500000 [1:13:45<1079:36:05,  2.59s/it]{'loss': 1.3062, 'grad_norm': 1.822334885597229, 'learning_rate': 2.9839999999999997e-07, 'epoch': 1495.0}
  0%|          | 1496/1500000 [1:13:48<1068:01:53,  2.57s/it]                                                               0%|          | 1496/1500000 [1:13:48<1068:01:53,  2.57s/it]{'loss': 1.3033, 'grad_norm': 2.1203582286834717, 'learning_rate': 2.986e-07, 'epoch': 1496.0}
  0%|          | 1497/1500000 [1:13:51<1097:29:00,  2.64s/it]                                                               0%|          | 1497/1500000 [1:13:51<1097:29:00,  2.64s/it]{'loss': 1.3022, 'grad_norm': 1.6835741996765137, 'learning_rate': 2.988e-07, 'epoch': 1497.0}
  0%|          | 1498/1500000 [1:13:53<1082:25:23,  2.60s/it]                                                               0%|          | 1498/1500000 [1:13:53<1082:25:23,  2.60s/it]{'loss': 1.2914, 'grad_norm': 3.1578574180603027, 'learning_rate': 2.99e-07, 'epoch': 1498.0}
  0%|          | 1499/1500000 [1:13:56<1071:12:33,  2.57s/it]                                                               0%|          | 1499/1500000 [1:13:56<1071:12:33,  2.57s/it]{'loss': 1.307, 'grad_norm': 3.5507915019989014, 'learning_rate': 2.9920000000000003e-07, 'epoch': 1499.0}
  0%|          | 1500/1500000 [1:13:58<1063:09:54,  2.55s/it]                                                               0%|          | 1500/1500000 [1:13:58<1063:09:54,  2.55s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.3063, 'grad_norm': 1.4307963848114014, 'learning_rate': 2.994e-07, 'epoch': 1500.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.06it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.24s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.25s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.44s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.36s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.03s/it][A                                                             
                                             [A  0%|          | 1500/1500000 [1:14:29<1063:09:54,  2.55s/it]
100%|██████████| 7/7 [00:09<00:00,  1.03s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1300] due to args.save_total_limit
{'eval_loss': 3.4006173610687256, 'eval_wer': 0.9988534739738592, 'eval_cer': 0.9277951830820442, 'eval_runtime': 17.7867, 'eval_samples_per_second': 55.266, 'eval_steps_per_second': 0.394, 'epoch': 1500.0}
  0%|          | 1501/1500000 [1:14:46<6709:51:38, 16.12s/it]                                                               0%|          | 1501/1500000 [1:14:46<6709:51:38, 16.12s/it]{'loss': 1.3031, 'grad_norm': 1.4752404689788818, 'learning_rate': 2.996e-07, 'epoch': 1501.0}
  0%|          | 1502/1500000 [1:14:49<5015:18:52, 12.05s/it]                                                               0%|          | 1502/1500000 [1:14:49<5015:18:52, 12.05s/it]{'loss': 1.2937, 'grad_norm': 1.6763641834259033, 'learning_rate': 2.998e-07, 'epoch': 1502.0}
  0%|          | 1503/1500000 [1:14:51<3829:13:20,  9.20s/it]                                                               0%|          | 1503/1500000 [1:14:51<3829:13:20,  9.20s/it]{'loss': 1.2943, 'grad_norm': 1.3917732238769531, 'learning_rate': 3.0000000000000004e-07, 'epoch': 1503.0}
  0%|          | 1504/1500000 [1:14:54<3002:29:27,  7.21s/it]                                                               0%|          | 1504/1500000 [1:14:54<3002:29:27,  7.21s/it]{'loss': 1.3013, 'grad_norm': 1.424237847328186, 'learning_rate': 3.002e-07, 'epoch': 1504.0}
  0%|          | 1505/1500000 [1:14:56<2422:24:19,  5.82s/it]                                                               0%|          | 1505/1500000 [1:14:56<2422:24:19,  5.82s/it]{'loss': 1.2947, 'grad_norm': 6.968347072601318, 'learning_rate': 3.004e-07, 'epoch': 1505.0}
  0%|          | 1506/1500000 [1:14:59<2020:28:32,  4.85s/it]                                                               0%|          | 1506/1500000 [1:14:59<2020:28:32,  4.85s/it]{'loss': 1.2972, 'grad_norm': 1.2417349815368652, 'learning_rate': 3.006e-07, 'epoch': 1506.0}
  0%|          | 1507/1500000 [1:15:02<1762:22:06,  4.23s/it]                                                               0%|          | 1507/1500000 [1:15:02<1762:22:06,  4.23s/it]{'loss': 1.2981, 'grad_norm': 1.7495036125183105, 'learning_rate': 3.008e-07, 'epoch': 1507.0}
  0%|          | 1508/1500000 [1:15:05<1587:59:29,  3.82s/it]                                                               0%|          | 1508/1500000 [1:15:05<1587:59:29,  3.82s/it]{'loss': 1.29, 'grad_norm': 1.3890981674194336, 'learning_rate': 3.01e-07, 'epoch': 1508.0}
  0%|          | 1509/1500000 [1:15:07<1463:36:06,  3.52s/it]                                                               0%|          | 1509/1500000 [1:15:07<1463:36:06,  3.52s/it]{'loss': 1.2879, 'grad_norm': 2.7451324462890625, 'learning_rate': 3.012e-07, 'epoch': 1509.0}
  0%|          | 1510/1500000 [1:15:10<1377:42:43,  3.31s/it]                                                               0%|          | 1510/1500000 [1:15:10<1377:42:43,  3.31s/it]{'loss': 1.2878, 'grad_norm': 3.0037295818328857, 'learning_rate': 3.0140000000000004e-07, 'epoch': 1510.0}
  0%|          | 1511/1500000 [1:15:13<1284:56:40,  3.09s/it]                                                               0%|          | 1511/1500000 [1:15:13<1284:56:40,  3.09s/it]{'loss': 1.2875, 'grad_norm': 2.355842113494873, 'learning_rate': 3.016e-07, 'epoch': 1511.0}
  0%|          | 1512/1500000 [1:15:16<1243:43:39,  2.99s/it]                                                               0%|          | 1512/1500000 [1:15:16<1243:43:39,  2.99s/it]{'loss': 1.2852, 'grad_norm': 2.237957000732422, 'learning_rate': 3.018e-07, 'epoch': 1512.0}
  0%|          | 1513/1500000 [1:15:18<1195:51:57,  2.87s/it]                                                               0%|          | 1513/1500000 [1:15:18<1195:51:57,  2.87s/it]{'loss': 1.2848, 'grad_norm': 10.184443473815918, 'learning_rate': 3.02e-07, 'epoch': 1513.0}
  0%|          | 1514/1500000 [1:15:21<1167:08:35,  2.80s/it]                                                               0%|          | 1514/1500000 [1:15:21<1167:08:35,  2.80s/it]{'loss': 1.2939, 'grad_norm': 1.6294456720352173, 'learning_rate': 3.022e-07, 'epoch': 1514.0}
  0%|          | 1515/1500000 [1:15:23<1135:00:10,  2.73s/it]                                                               0%|          | 1515/1500000 [1:15:23<1135:00:10,  2.73s/it]{'loss': 1.2908, 'grad_norm': 1.353142499923706, 'learning_rate': 3.024e-07, 'epoch': 1515.0}
  0%|          | 1516/1500000 [1:15:26<1113:12:58,  2.67s/it]                                                               0%|          | 1516/1500000 [1:15:26<1113:12:58,  2.67s/it]{'loss': 1.2901, 'grad_norm': 4.501701831817627, 'learning_rate': 3.026e-07, 'epoch': 1516.0}
  0%|          | 1517/1500000 [1:15:29<1114:51:16,  2.68s/it]                                                               0%|          | 1517/1500000 [1:15:29<1114:51:16,  2.68s/it]{'loss': 1.2802, 'grad_norm': 1.2116526365280151, 'learning_rate': 3.028e-07, 'epoch': 1517.0}
  0%|          | 1518/1500000 [1:15:31<1106:08:37,  2.66s/it]                                                               0%|          | 1518/1500000 [1:15:31<1106:08:37,  2.66s/it]{'loss': 1.2787, 'grad_norm': 2.3545150756835938, 'learning_rate': 3.03e-07, 'epoch': 1518.0}
  0%|          | 1519/1500000 [1:15:34<1089:37:43,  2.62s/it]                                                               0%|          | 1519/1500000 [1:15:34<1089:37:43,  2.62s/it]{'loss': 1.2856, 'grad_norm': 4.866631984710693, 'learning_rate': 3.032e-07, 'epoch': 1519.0}
  0%|          | 1520/1500000 [1:15:36<1103:13:58,  2.65s/it]                                                               0%|          | 1520/1500000 [1:15:36<1103:13:58,  2.65s/it]{'loss': 1.2955, 'grad_norm': 1.5152175426483154, 'learning_rate': 3.0340000000000003e-07, 'epoch': 1520.0}
  0%|          | 1521/1500000 [1:15:39<1088:02:25,  2.61s/it]                                                               0%|          | 1521/1500000 [1:15:39<1088:02:25,  2.61s/it]{'loss': 1.2912, 'grad_norm': 2.6089253425598145, 'learning_rate': 3.0360000000000005e-07, 'epoch': 1521.0}
  0%|          | 1522/1500000 [1:15:41<1076:01:34,  2.59s/it]                                                               0%|          | 1522/1500000 [1:15:41<1076:01:34,  2.59s/it]{'loss': 1.2861, 'grad_norm': 1.9974356889724731, 'learning_rate': 3.038e-07, 'epoch': 1522.0}
  0%|          | 1523/1500000 [1:15:44<1110:29:15,  2.67s/it]                                                               0%|          | 1523/1500000 [1:15:44<1110:29:15,  2.67s/it]{'loss': 1.2807, 'grad_norm': 2.423768997192383, 'learning_rate': 3.0399999999999997e-07, 'epoch': 1523.0}
  0%|          | 1524/1500000 [1:15:47<1088:29:26,  2.62s/it]                                                               0%|          | 1524/1500000 [1:15:47<1088:29:26,  2.62s/it]{'loss': 1.2739, 'grad_norm': 1.643397331237793, 'learning_rate': 3.042e-07, 'epoch': 1524.0}
  0%|          | 1525/1500000 [1:15:49<1085:30:02,  2.61s/it]                                                               0%|          | 1525/1500000 [1:15:49<1085:30:02,  2.61s/it]{'loss': 1.2871, 'grad_norm': 1.9758412837982178, 'learning_rate': 3.044e-07, 'epoch': 1525.0}
  0%|          | 1526/1500000 [1:15:52<1084:41:19,  2.61s/it]                                                               0%|          | 1526/1500000 [1:15:52<1084:41:19,  2.61s/it]{'loss': 1.2785, 'grad_norm': 2.233348846435547, 'learning_rate': 3.046e-07, 'epoch': 1526.0}
  0%|          | 1527/1500000 [1:15:55<1101:36:32,  2.65s/it]                                                               0%|          | 1527/1500000 [1:15:55<1101:36:32,  2.65s/it]{'loss': 1.2817, 'grad_norm': 1.6656811237335205, 'learning_rate': 3.0480000000000003e-07, 'epoch': 1527.0}
  0%|          | 1528/1500000 [1:15:57<1089:54:30,  2.62s/it]                                                               0%|          | 1528/1500000 [1:15:57<1089:54:30,  2.62s/it]{'loss': 1.2851, 'grad_norm': 3.1152219772338867, 'learning_rate': 3.05e-07, 'epoch': 1528.0}
  0%|          | 1529/1500000 [1:16:00<1081:31:52,  2.60s/it]                                                               0%|          | 1529/1500000 [1:16:00<1081:31:52,  2.60s/it]{'loss': 1.2882, 'grad_norm': 6.114630222320557, 'learning_rate': 3.052e-07, 'epoch': 1529.0}
  0%|          | 1530/1500000 [1:16:03<1090:03:02,  2.62s/it]                                                               0%|          | 1530/1500000 [1:16:03<1090:03:02,  2.62s/it]{'loss': 1.2837, 'grad_norm': 1.5914663076400757, 'learning_rate': 3.054e-07, 'epoch': 1530.0}
  0%|          | 1531/1500000 [1:16:05<1073:27:27,  2.58s/it]                                                               0%|          | 1531/1500000 [1:16:05<1073:27:27,  2.58s/it]{'loss': 1.2715, 'grad_norm': 1.407583236694336, 'learning_rate': 3.0560000000000004e-07, 'epoch': 1531.0}
  0%|          | 1532/1500000 [1:16:08<1068:57:29,  2.57s/it]                                                               0%|          | 1532/1500000 [1:16:08<1068:57:29,  2.57s/it]{'loss': 1.2795, 'grad_norm': 9.481025695800781, 'learning_rate': 3.058e-07, 'epoch': 1532.0}
  0%|          | 1533/1500000 [1:16:10<1065:33:22,  2.56s/it]                                                               0%|          | 1533/1500000 [1:16:10<1065:33:22,  2.56s/it]{'loss': 1.2775, 'grad_norm': 1.6430846452713013, 'learning_rate': 3.06e-07, 'epoch': 1533.0}
  0%|          | 1534/1500000 [1:16:13<1094:20:28,  2.63s/it]                                                               0%|          | 1534/1500000 [1:16:13<1094:20:28,  2.63s/it]{'loss': 1.2672, 'grad_norm': 4.192803859710693, 'learning_rate': 3.062e-07, 'epoch': 1534.0}
  0%|          | 1535/1500000 [1:16:15<1085:01:05,  2.61s/it]                                                               0%|          | 1535/1500000 [1:16:15<1085:01:05,  2.61s/it]{'loss': 1.2809, 'grad_norm': 2.279686450958252, 'learning_rate': 3.064e-07, 'epoch': 1535.0}
  0%|          | 1536/1500000 [1:16:18<1091:40:05,  2.62s/it]                                                               0%|          | 1536/1500000 [1:16:18<1091:40:05,  2.62s/it]{'loss': 1.274, 'grad_norm': 4.130805015563965, 'learning_rate': 3.066e-07, 'epoch': 1536.0}
  0%|          | 1537/1500000 [1:16:21<1075:08:09,  2.58s/it]                                                               0%|          | 1537/1500000 [1:16:21<1075:08:09,  2.58s/it]{'loss': 1.2685, 'grad_norm': 1.4426029920578003, 'learning_rate': 3.068e-07, 'epoch': 1537.0}
  0%|          | 1538/1500000 [1:16:23<1066:21:46,  2.56s/it]                                                               0%|          | 1538/1500000 [1:16:23<1066:21:46,  2.56s/it]{'loss': 1.2677, 'grad_norm': 2.8648459911346436, 'learning_rate': 3.0700000000000004e-07, 'epoch': 1538.0}
  0%|          | 1539/1500000 [1:16:26<1061:06:50,  2.55s/it]                                                               0%|          | 1539/1500000 [1:16:26<1061:06:50,  2.55s/it]{'loss': 1.2749, 'grad_norm': 2.8363890647888184, 'learning_rate': 3.0720000000000005e-07, 'epoch': 1539.0}
  0%|          | 1540/1500000 [1:16:28<1061:18:47,  2.55s/it]                                                               0%|          | 1540/1500000 [1:16:28<1061:18:47,  2.55s/it]{'loss': 1.274, 'grad_norm': 1.1572701930999756, 'learning_rate': 3.074e-07, 'epoch': 1540.0}
  0%|          | 1541/1500000 [1:16:31<1060:18:52,  2.55s/it]                                                               0%|          | 1541/1500000 [1:16:31<1060:18:52,  2.55s/it]{'loss': 1.2759, 'grad_norm': 1.5383100509643555, 'learning_rate': 3.076e-07, 'epoch': 1541.0}
  0%|          | 1542/1500000 [1:16:33<1053:17:57,  2.53s/it]                                                               0%|          | 1542/1500000 [1:16:33<1053:17:57,  2.53s/it]{'loss': 1.2666, 'grad_norm': 12.294698715209961, 'learning_rate': 3.078e-07, 'epoch': 1542.0}
  0%|          | 1543/1500000 [1:16:36<1052:57:38,  2.53s/it]                                                               0%|          | 1543/1500000 [1:16:36<1052:57:38,  2.53s/it]{'loss': 1.2693, 'grad_norm': 6.672359943389893, 'learning_rate': 3.08e-07, 'epoch': 1543.0}
  0%|          | 1544/1500000 [1:16:38<1062:30:19,  2.55s/it]                                                               0%|          | 1544/1500000 [1:16:38<1062:30:19,  2.55s/it]{'loss': 1.2716, 'grad_norm': 1.6234568357467651, 'learning_rate': 3.082e-07, 'epoch': 1544.0}
  0%|          | 1545/1500000 [1:16:41<1055:58:31,  2.54s/it]                                                               0%|          | 1545/1500000 [1:16:41<1055:58:31,  2.54s/it]{'loss': 1.2795, 'grad_norm': 4.963863372802734, 'learning_rate': 3.084e-07, 'epoch': 1545.0}
  0%|          | 1546/1500000 [1:16:44<1090:16:20,  2.62s/it]                                                               0%|          | 1546/1500000 [1:16:44<1090:16:20,  2.62s/it]{'loss': 1.2804, 'grad_norm': 1.7043942213058472, 'learning_rate': 3.086e-07, 'epoch': 1546.0}
  0%|          | 1547/1500000 [1:16:46<1116:29:19,  2.68s/it]                                                               0%|          | 1547/1500000 [1:16:46<1116:29:19,  2.68s/it]{'loss': 1.2801, 'grad_norm': 1.8492419719696045, 'learning_rate': 3.088e-07, 'epoch': 1547.0}
  0%|          | 1548/1500000 [1:16:49<1143:10:10,  2.75s/it]                                                               0%|          | 1548/1500000 [1:16:49<1143:10:10,  2.75s/it]{'loss': 1.2685, 'grad_norm': 1.741119146347046, 'learning_rate': 3.0900000000000003e-07, 'epoch': 1548.0}
  0%|          | 1549/1500000 [1:16:52<1109:31:09,  2.67s/it]                                                               0%|          | 1549/1500000 [1:16:52<1109:31:09,  2.67s/it]{'loss': 1.2689, 'grad_norm': 3.388685703277588, 'learning_rate': 3.0920000000000004e-07, 'epoch': 1549.0}
  0%|          | 1550/1500000 [1:16:55<1125:02:50,  2.70s/it]                                                               0%|          | 1550/1500000 [1:16:55<1125:02:50,  2.70s/it]{'loss': 1.2657, 'grad_norm': 1.6420338153839111, 'learning_rate': 3.094e-07, 'epoch': 1550.0}
  0%|          | 1551/1500000 [1:16:57<1096:35:07,  2.63s/it]                                                               0%|          | 1551/1500000 [1:16:57<1096:35:07,  2.63s/it]{'loss': 1.2767, 'grad_norm': 1.5247583389282227, 'learning_rate': 3.0959999999999997e-07, 'epoch': 1551.0}
  0%|          | 1552/1500000 [1:17:00<1117:03:55,  2.68s/it]                                                               0%|          | 1552/1500000 [1:17:00<1117:03:55,  2.68s/it]{'loss': 1.2849, 'grad_norm': 2.0903472900390625, 'learning_rate': 3.098e-07, 'epoch': 1552.0}
  0%|          | 1553/1500000 [1:17:03<1131:28:49,  2.72s/it]                                                               0%|          | 1553/1500000 [1:17:03<1131:28:49,  2.72s/it]{'loss': 1.2619, 'grad_norm': 1.412312626838684, 'learning_rate': 3.1e-07, 'epoch': 1553.0}
  0%|          | 1554/1500000 [1:17:06<1143:06:54,  2.75s/it]                                                               0%|          | 1554/1500000 [1:17:06<1143:06:54,  2.75s/it]{'loss': 1.2712, 'grad_norm': 1.1861884593963623, 'learning_rate': 3.102e-07, 'epoch': 1554.0}
  0%|          | 1555/1500000 [1:17:08<1113:25:47,  2.68s/it]                                                               0%|          | 1555/1500000 [1:17:08<1113:25:47,  2.68s/it]{'loss': 1.2602, 'grad_norm': 2.1881372928619385, 'learning_rate': 3.1040000000000003e-07, 'epoch': 1555.0}
  0%|          | 1556/1500000 [1:17:11<1129:08:39,  2.71s/it]                                                               0%|          | 1556/1500000 [1:17:11<1129:08:39,  2.71s/it]{'loss': 1.2604, 'grad_norm': 1.4246052503585815, 'learning_rate': 3.1060000000000004e-07, 'epoch': 1556.0}
  0%|          | 1557/1500000 [1:17:14<1143:12:40,  2.75s/it]                                                               0%|          | 1557/1500000 [1:17:14<1143:12:40,  2.75s/it]{'loss': 1.2693, 'grad_norm': 3.1985530853271484, 'learning_rate': 3.108e-07, 'epoch': 1557.0}
  0%|          | 1558/1500000 [1:17:16<1110:13:27,  2.67s/it]                                                               0%|          | 1558/1500000 [1:17:16<1110:13:27,  2.67s/it]{'loss': 1.262, 'grad_norm': 3.000803232192993, 'learning_rate': 3.11e-07, 'epoch': 1558.0}
  0%|          | 1559/1500000 [1:17:19<1092:42:57,  2.63s/it]                                                               0%|          | 1559/1500000 [1:17:19<1092:42:57,  2.63s/it]{'loss': 1.2607, 'grad_norm': 2.5307669639587402, 'learning_rate': 3.1120000000000003e-07, 'epoch': 1559.0}
  0%|          | 1560/1500000 [1:17:21<1082:16:35,  2.60s/it]                                                               0%|          | 1560/1500000 [1:17:21<1082:16:35,  2.60s/it]{'loss': 1.2552, 'grad_norm': 1.6454371213912964, 'learning_rate': 3.114e-07, 'epoch': 1560.0}
  0%|          | 1561/1500000 [1:17:24<1072:27:05,  2.58s/it]                                                               0%|          | 1561/1500000 [1:17:24<1072:27:05,  2.58s/it]{'loss': 1.2676, 'grad_norm': 1.804520606994629, 'learning_rate': 3.116e-07, 'epoch': 1561.0}
  0%|          | 1562/1500000 [1:17:26<1072:38:54,  2.58s/it]                                                               0%|          | 1562/1500000 [1:17:26<1072:38:54,  2.58s/it]{'loss': 1.2635, 'grad_norm': 3.439753770828247, 'learning_rate': 3.1179999999999997e-07, 'epoch': 1562.0}
  0%|          | 1563/1500000 [1:17:29<1059:50:05,  2.55s/it]                                                               0%|          | 1563/1500000 [1:17:29<1059:50:05,  2.55s/it]{'loss': 1.2576, 'grad_norm': 1.1917674541473389, 'learning_rate': 3.12e-07, 'epoch': 1563.0}
  0%|          | 1564/1500000 [1:17:31<1052:51:22,  2.53s/it]                                                               0%|          | 1564/1500000 [1:17:31<1052:51:22,  2.53s/it]{'loss': 1.2554, 'grad_norm': 2.31257700920105, 'learning_rate': 3.122e-07, 'epoch': 1564.0}
  0%|          | 1565/1500000 [1:17:34<1051:02:03,  2.53s/it]                                                               0%|          | 1565/1500000 [1:17:34<1051:02:03,  2.53s/it]{'loss': 1.2573, 'grad_norm': 1.6591564416885376, 'learning_rate': 3.124e-07, 'epoch': 1565.0}
  0%|          | 1566/1500000 [1:17:36<1049:00:21,  2.52s/it]                                                               0%|          | 1566/1500000 [1:17:36<1049:00:21,  2.52s/it]{'loss': 1.2603, 'grad_norm': 1.6662665605545044, 'learning_rate': 3.1260000000000003e-07, 'epoch': 1566.0}
  0%|          | 1567/1500000 [1:17:39<1048:44:56,  2.52s/it]                                                               0%|          | 1567/1500000 [1:17:39<1048:44:56,  2.52s/it]{'loss': 1.2506, 'grad_norm': 1.2734800577163696, 'learning_rate': 3.1280000000000005e-07, 'epoch': 1567.0}
  0%|          | 1568/1500000 [1:17:41<1042:42:21,  2.51s/it]                                                               0%|          | 1568/1500000 [1:17:41<1042:42:21,  2.51s/it]{'loss': 1.2649, 'grad_norm': 2.0620973110198975, 'learning_rate': 3.13e-07, 'epoch': 1568.0}
  0%|          | 1569/1500000 [1:17:44<1041:28:24,  2.50s/it]                                                               0%|          | 1569/1500000 [1:17:44<1041:28:24,  2.50s/it]{'loss': 1.2513, 'grad_norm': 1.2884175777435303, 'learning_rate': 3.1319999999999997e-07, 'epoch': 1569.0}
  0%|          | 1570/1500000 [1:17:47<1084:09:15,  2.60s/it]                                                               0%|          | 1570/1500000 [1:17:47<1084:09:15,  2.60s/it]{'loss': 1.2617, 'grad_norm': 5.213317394256592, 'learning_rate': 3.134e-07, 'epoch': 1570.0}
  0%|          | 1571/1500000 [1:17:49<1110:14:23,  2.67s/it]                                                               0%|          | 1571/1500000 [1:17:49<1110:14:23,  2.67s/it]{'loss': 1.2487, 'grad_norm': 2.661512613296509, 'learning_rate': 3.136e-07, 'epoch': 1571.0}
  0%|          | 1572/1500000 [1:17:52<1095:40:55,  2.63s/it]                                                               0%|          | 1572/1500000 [1:17:52<1095:40:55,  2.63s/it]{'loss': 1.2625, 'grad_norm': 5.198607921600342, 'learning_rate': 3.138e-07, 'epoch': 1572.0}
  0%|          | 1573/1500000 [1:17:55<1082:19:48,  2.60s/it]                                                               0%|          | 1573/1500000 [1:17:55<1082:19:48,  2.60s/it]{'loss': 1.2571, 'grad_norm': 3.2222323417663574, 'learning_rate': 3.1400000000000003e-07, 'epoch': 1573.0}
  0%|          | 1574/1500000 [1:17:57<1072:56:07,  2.58s/it]                                                               0%|          | 1574/1500000 [1:17:57<1072:56:07,  2.58s/it]{'loss': 1.251, 'grad_norm': 1.4177178144454956, 'learning_rate': 3.142e-07, 'epoch': 1574.0}
  0%|          | 1575/1500000 [1:18:00<1063:24:50,  2.55s/it]                                                               0%|          | 1575/1500000 [1:18:00<1063:24:50,  2.55s/it]{'loss': 1.2552, 'grad_norm': 4.234415531158447, 'learning_rate': 3.144e-07, 'epoch': 1575.0}
  0%|          | 1576/1500000 [1:18:02<1057:57:46,  2.54s/it]                                                               0%|          | 1576/1500000 [1:18:02<1057:57:46,  2.54s/it]{'loss': 1.2536, 'grad_norm': 1.6732165813446045, 'learning_rate': 3.146e-07, 'epoch': 1576.0}
  0%|          | 1577/1500000 [1:18:05<1093:32:08,  2.63s/it]                                                               0%|          | 1577/1500000 [1:18:05<1093:32:08,  2.63s/it]{'loss': 1.2474, 'grad_norm': 1.757401466369629, 'learning_rate': 3.1480000000000004e-07, 'epoch': 1577.0}
  0%|          | 1578/1500000 [1:18:08<1137:19:39,  2.73s/it]                                                               0%|          | 1578/1500000 [1:18:08<1137:19:39,  2.73s/it]{'loss': 1.246, 'grad_norm': 1.1561774015426636, 'learning_rate': 3.15e-07, 'epoch': 1578.0}
  0%|          | 1579/1500000 [1:18:11<1185:38:23,  2.85s/it]                                                               0%|          | 1579/1500000 [1:18:11<1185:38:23,  2.85s/it]{'loss': 1.2499, 'grad_norm': 1.8651529550552368, 'learning_rate': 3.1519999999999996e-07, 'epoch': 1579.0}
  0%|          | 1580/1500000 [1:18:14<1226:06:19,  2.95s/it]                                                               0%|          | 1580/1500000 [1:18:14<1226:06:19,  2.95s/it]{'loss': 1.2474, 'grad_norm': 2.143632650375366, 'learning_rate': 3.154e-07, 'epoch': 1580.0}
  0%|          | 1581/1500000 [1:18:17<1245:57:19,  2.99s/it]                                                               0%|          | 1581/1500000 [1:18:17<1245:57:19,  2.99s/it]{'loss': 1.2491, 'grad_norm': 1.6698638200759888, 'learning_rate': 3.156e-07, 'epoch': 1581.0}
  0%|          | 1582/1500000 [1:18:20<1189:17:04,  2.86s/it]                                                               0%|          | 1582/1500000 [1:18:20<1189:17:04,  2.86s/it]{'loss': 1.2451, 'grad_norm': 1.3782187700271606, 'learning_rate': 3.158e-07, 'epoch': 1582.0}
  0%|          | 1583/1500000 [1:18:22<1143:28:55,  2.75s/it]                                                               0%|          | 1583/1500000 [1:18:22<1143:28:55,  2.75s/it]{'loss': 1.2418, 'grad_norm': 2.405734062194824, 'learning_rate': 3.16e-07, 'epoch': 1583.0}
  0%|          | 1584/1500000 [1:18:25<1157:55:02,  2.78s/it]                                                               0%|          | 1584/1500000 [1:18:25<1157:55:02,  2.78s/it]{'loss': 1.2485, 'grad_norm': 4.406973361968994, 'learning_rate': 3.1620000000000004e-07, 'epoch': 1584.0}
  0%|          | 1585/1500000 [1:18:28<1127:07:54,  2.71s/it]                                                               0%|          | 1585/1500000 [1:18:28<1127:07:54,  2.71s/it]{'loss': 1.2502, 'grad_norm': 1.4855495691299438, 'learning_rate': 3.164e-07, 'epoch': 1585.0}
  0%|          | 1586/1500000 [1:18:30<1100:36:19,  2.64s/it]                                                               0%|          | 1586/1500000 [1:18:30<1100:36:19,  2.64s/it]{'loss': 1.2466, 'grad_norm': 1.263018012046814, 'learning_rate': 3.166e-07, 'epoch': 1586.0}
  0%|          | 1587/1500000 [1:18:33<1127:49:20,  2.71s/it]                                                               0%|          | 1587/1500000 [1:18:33<1127:49:20,  2.71s/it]{'loss': 1.242, 'grad_norm': 2.741412878036499, 'learning_rate': 3.1680000000000003e-07, 'epoch': 1587.0}
  0%|          | 1588/1500000 [1:18:36<1136:28:26,  2.73s/it]                                                               0%|          | 1588/1500000 [1:18:36<1136:28:26,  2.73s/it]{'loss': 1.2408, 'grad_norm': 2.628793716430664, 'learning_rate': 3.17e-07, 'epoch': 1588.0}
  0%|          | 1589/1500000 [1:18:39<1141:18:19,  2.74s/it]                                                               0%|          | 1589/1500000 [1:18:39<1141:18:19,  2.74s/it]{'loss': 1.2373, 'grad_norm': 1.2351840734481812, 'learning_rate': 3.172e-07, 'epoch': 1589.0}
  0%|          | 1590/1500000 [1:18:41<1115:23:49,  2.68s/it]                                                               0%|          | 1590/1500000 [1:18:41<1115:23:49,  2.68s/it]{'loss': 1.2432, 'grad_norm': 2.335984468460083, 'learning_rate': 3.174e-07, 'epoch': 1590.0}
  0%|          | 1591/1500000 [1:18:44<1092:41:23,  2.63s/it]                                                               0%|          | 1591/1500000 [1:18:44<1092:41:23,  2.63s/it]{'loss': 1.2427, 'grad_norm': 1.8175221681594849, 'learning_rate': 3.176e-07, 'epoch': 1591.0}
  0%|          | 1592/1500000 [1:18:46<1078:06:02,  2.59s/it]                                                               0%|          | 1592/1500000 [1:18:46<1078:06:02,  2.59s/it]{'loss': 1.2374, 'grad_norm': 2.014063835144043, 'learning_rate': 3.178e-07, 'epoch': 1592.0}
  0%|          | 1593/1500000 [1:18:49<1104:39:44,  2.65s/it]                                                               0%|          | 1593/1500000 [1:18:49<1104:39:44,  2.65s/it]{'loss': 1.2413, 'grad_norm': 1.4306377172470093, 'learning_rate': 3.18e-07, 'epoch': 1593.0}
  0%|          | 1594/1500000 [1:18:52<1121:18:00,  2.69s/it]                                                               0%|          | 1594/1500000 [1:18:52<1121:18:00,  2.69s/it]{'loss': 1.2297, 'grad_norm': 1.1460589170455933, 'learning_rate': 3.1820000000000003e-07, 'epoch': 1594.0}
  0%|          | 1595/1500000 [1:18:54<1130:20:16,  2.72s/it]                                                               0%|          | 1595/1500000 [1:18:54<1130:20:16,  2.72s/it]{'loss': 1.2399, 'grad_norm': 2.886244535446167, 'learning_rate': 3.1840000000000005e-07, 'epoch': 1595.0}
  0%|          | 1596/1500000 [1:18:57<1147:00:19,  2.76s/it]                                                               0%|          | 1596/1500000 [1:18:57<1147:00:19,  2.76s/it]{'loss': 1.2492, 'grad_norm': 11.47624683380127, 'learning_rate': 3.186e-07, 'epoch': 1596.0}
  0%|          | 1597/1500000 [1:19:00<1116:49:08,  2.68s/it]                                                               0%|          | 1597/1500000 [1:19:00<1116:49:08,  2.68s/it]{'loss': 1.2358, 'grad_norm': 1.4171040058135986, 'learning_rate': 3.1879999999999997e-07, 'epoch': 1597.0}
  0%|          | 1598/1500000 [1:19:02<1097:04:06,  2.64s/it]                                                               0%|          | 1598/1500000 [1:19:02<1097:04:06,  2.64s/it]{'loss': 1.2394, 'grad_norm': 2.0270869731903076, 'learning_rate': 3.19e-07, 'epoch': 1598.0}
  0%|          | 1599/1500000 [1:19:05<1084:07:47,  2.60s/it]                                                               0%|          | 1599/1500000 [1:19:05<1084:07:47,  2.60s/it]{'loss': 1.2438, 'grad_norm': 1.7519385814666748, 'learning_rate': 3.192e-07, 'epoch': 1599.0}
  0%|          | 1600/1500000 [1:19:07<1071:44:04,  2.57s/it]                                                               0%|          | 1600/1500000 [1:19:07<1071:44:04,  2.57s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.2384, 'grad_norm': 2.805575370788574, 'learning_rate': 3.194e-07, 'epoch': 1600.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.64it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.14s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.22s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.42s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.45s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.09s/it][A                                                             
                                             [A  0%|          | 1600/1500000 [1:19:49<1071:44:04,  2.57s/it]
100%|██████████| 7/7 [00:08<00:00,  1.09s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1400] due to args.save_total_limit
{'eval_loss': 3.3922312259674072, 'eval_wer': 0.9982802109607888, 'eval_cer': 0.896000587429019, 'eval_runtime': 15.0282, 'eval_samples_per_second': 65.41, 'eval_steps_per_second': 0.466, 'epoch': 1600.0}
  0%|          | 1601/1500000 [1:20:06<8084:22:04, 19.42s/it]                                                               0%|          | 1601/1500000 [1:20:06<8084:22:04, 19.42s/it]{'loss': 1.2298, 'grad_norm': 1.4348207712173462, 'learning_rate': 3.1960000000000003e-07, 'epoch': 1601.0}
  0%|          | 1602/1500000 [1:20:09<5978:43:48, 14.36s/it]                                                               0%|          | 1602/1500000 [1:20:09<5978:43:48, 14.36s/it]{'loss': 1.2351, 'grad_norm': 2.2115073204040527, 'learning_rate': 3.198e-07, 'epoch': 1602.0}
  0%|          | 1603/1500000 [1:20:12<4537:44:32, 10.90s/it]                                                               0%|          | 1603/1500000 [1:20:12<4537:44:32, 10.90s/it]{'loss': 1.2299, 'grad_norm': 2.213056802749634, 'learning_rate': 3.2e-07, 'epoch': 1603.0}
  0%|          | 1604/1500000 [1:20:14<3497:05:52,  8.40s/it]                                                               0%|          | 1604/1500000 [1:20:14<3497:05:52,  8.40s/it]{'loss': 1.225, 'grad_norm': 2.2566988468170166, 'learning_rate': 3.202e-07, 'epoch': 1604.0}
  0%|          | 1605/1500000 [1:20:17<2814:21:39,  6.76s/it]                                                               0%|          | 1605/1500000 [1:20:17<2814:21:39,  6.76s/it]{'loss': 1.237, 'grad_norm': 2.6612586975097656, 'learning_rate': 3.2040000000000004e-07, 'epoch': 1605.0}
  0%|          | 1606/1500000 [1:20:20<2355:25:37,  5.66s/it]                                                               0%|          | 1606/1500000 [1:20:20<2355:25:37,  5.66s/it]{'loss': 1.229, 'grad_norm': 9.825260162353516, 'learning_rate': 3.206e-07, 'epoch': 1606.0}
  0%|          | 1607/1500000 [1:20:23<1962:20:49,  4.71s/it]                                                               0%|          | 1607/1500000 [1:20:23<1962:20:49,  4.71s/it]{'loss': 1.2376, 'grad_norm': 1.6343809366226196, 'learning_rate': 3.2079999999999996e-07, 'epoch': 1607.0}
  0%|          | 1608/1500000 [1:20:25<1722:40:36,  4.14s/it]                                                               0%|          | 1608/1500000 [1:20:25<1722:40:36,  4.14s/it]{'loss': 1.232, 'grad_norm': 1.2972010374069214, 'learning_rate': 3.21e-07, 'epoch': 1608.0}
  0%|          | 1609/1500000 [1:20:28<1514:55:42,  3.64s/it]                                                               0%|          | 1609/1500000 [1:20:28<1514:55:42,  3.64s/it]{'loss': 1.2231, 'grad_norm': 3.7820985317230225, 'learning_rate': 3.212e-07, 'epoch': 1609.0}
  0%|          | 1610/1500000 [1:20:30<1373:25:02,  3.30s/it]                                                               0%|          | 1610/1500000 [1:20:30<1373:25:02,  3.30s/it]{'loss': 1.2258, 'grad_norm': 3.4229118824005127, 'learning_rate': 3.214e-07, 'epoch': 1610.0}
  0%|          | 1611/1500000 [1:20:33<1274:03:32,  3.06s/it]                                                               0%|          | 1611/1500000 [1:20:33<1274:03:32,  3.06s/it]{'loss': 1.228, 'grad_norm': 1.613580346107483, 'learning_rate': 3.216e-07, 'epoch': 1611.0}
  0%|          | 1612/1500000 [1:20:35<1206:09:19,  2.90s/it]                                                               0%|          | 1612/1500000 [1:20:35<1206:09:19,  2.90s/it]{'loss': 1.2265, 'grad_norm': 1.2464184761047363, 'learning_rate': 3.2180000000000004e-07, 'epoch': 1612.0}
  0%|          | 1613/1500000 [1:20:38<1160:49:26,  2.79s/it]                                                               0%|          | 1613/1500000 [1:20:38<1160:49:26,  2.79s/it]{'loss': 1.2289, 'grad_norm': 2.0791947841644287, 'learning_rate': 3.22e-07, 'epoch': 1613.0}
  0%|          | 1614/1500000 [1:20:40<1126:02:01,  2.71s/it]                                                               0%|          | 1614/1500000 [1:20:40<1126:02:01,  2.71s/it]{'loss': 1.2302, 'grad_norm': 2.152047634124756, 'learning_rate': 3.222e-07, 'epoch': 1614.0}
  0%|          | 1615/1500000 [1:20:43<1101:24:23,  2.65s/it]                                                               0%|          | 1615/1500000 [1:20:43<1101:24:23,  2.65s/it]{'loss': 1.2251, 'grad_norm': 1.459893822669983, 'learning_rate': 3.2240000000000003e-07, 'epoch': 1615.0}
  0%|          | 1616/1500000 [1:20:46<1087:16:05,  2.61s/it]                                                               0%|          | 1616/1500000 [1:20:46<1087:16:05,  2.61s/it]{'loss': 1.2268, 'grad_norm': 9.200007438659668, 'learning_rate': 3.226e-07, 'epoch': 1616.0}
  0%|          | 1617/1500000 [1:20:48<1084:16:50,  2.61s/it]                                                               0%|          | 1617/1500000 [1:20:48<1084:16:50,  2.61s/it]{'loss': 1.2273, 'grad_norm': 4.790194034576416, 'learning_rate': 3.228e-07, 'epoch': 1617.0}
  0%|          | 1618/1500000 [1:20:51<1112:23:08,  2.67s/it]                                                               0%|          | 1618/1500000 [1:20:51<1112:23:08,  2.67s/it]{'loss': 1.2296, 'grad_norm': 3.9948995113372803, 'learning_rate': 3.23e-07, 'epoch': 1618.0}
  0%|          | 1619/1500000 [1:20:53<1096:31:57,  2.63s/it]                                                               0%|          | 1619/1500000 [1:20:53<1096:31:57,  2.63s/it]{'loss': 1.2333, 'grad_norm': 2.507408618927002, 'learning_rate': 3.232e-07, 'epoch': 1619.0}
  0%|          | 1620/1500000 [1:20:56<1079:17:06,  2.59s/it]                                                               0%|          | 1620/1500000 [1:20:56<1079:17:06,  2.59s/it]{'loss': 1.2167, 'grad_norm': 1.7139999866485596, 'learning_rate': 3.234e-07, 'epoch': 1620.0}
  0%|          | 1621/1500000 [1:20:58<1064:35:10,  2.56s/it]                                                               0%|          | 1621/1500000 [1:20:58<1064:35:10,  2.56s/it]{'loss': 1.2209, 'grad_norm': 2.1433842182159424, 'learning_rate': 3.236e-07, 'epoch': 1621.0}
  0%|          | 1622/1500000 [1:21:01<1056:17:02,  2.54s/it]                                                               0%|          | 1622/1500000 [1:21:01<1056:17:02,  2.54s/it]{'loss': 1.2223, 'grad_norm': 2.3257484436035156, 'learning_rate': 3.2380000000000003e-07, 'epoch': 1622.0}
  0%|          | 1623/1500000 [1:21:03<1057:25:36,  2.54s/it]                                                               0%|          | 1623/1500000 [1:21:04<1057:25:36,  2.54s/it]{'loss': 1.2195, 'grad_norm': 3.1847002506256104, 'learning_rate': 3.2400000000000004e-07, 'epoch': 1623.0}
  0%|          | 1624/1500000 [1:21:06<1054:53:24,  2.53s/it]                                                               0%|          | 1624/1500000 [1:21:06<1054:53:24,  2.53s/it]{'loss': 1.2252, 'grad_norm': 2.8658084869384766, 'learning_rate': 3.242e-07, 'epoch': 1624.0}
  0%|          | 1625/1500000 [1:21:09<1050:48:06,  2.52s/it]                                                               0%|          | 1625/1500000 [1:21:09<1050:48:06,  2.52s/it]{'loss': 1.2067, 'grad_norm': 2.598594903945923, 'learning_rate': 3.2439999999999997e-07, 'epoch': 1625.0}
  0%|          | 1626/1500000 [1:21:11<1060:47:19,  2.55s/it]                                                               0%|          | 1626/1500000 [1:21:11<1060:47:19,  2.55s/it]{'loss': 1.2168, 'grad_norm': 1.7260302305221558, 'learning_rate': 3.246e-07, 'epoch': 1626.0}
  0%|          | 1627/1500000 [1:21:14<1056:00:37,  2.54s/it]                                                               0%|          | 1627/1500000 [1:21:14<1056:00:37,  2.54s/it]{'loss': 1.2153, 'grad_norm': 6.38256311416626, 'learning_rate': 3.248e-07, 'epoch': 1627.0}
  0%|          | 1628/1500000 [1:21:16<1094:19:08,  2.63s/it]                                                               0%|          | 1628/1500000 [1:21:16<1094:19:08,  2.63s/it]{'loss': 1.2182, 'grad_norm': 1.4546462297439575, 'learning_rate': 3.25e-07, 'epoch': 1628.0}
  0%|          | 1629/1500000 [1:21:19<1117:44:07,  2.69s/it]                                                               0%|          | 1629/1500000 [1:21:19<1117:44:07,  2.69s/it]{'loss': 1.2119, 'grad_norm': 2.2306203842163086, 'learning_rate': 3.2520000000000003e-07, 'epoch': 1629.0}
  0%|          | 1630/1500000 [1:21:22<1090:53:07,  2.62s/it]                                                               0%|          | 1630/1500000 [1:21:22<1090:53:07,  2.62s/it]{'loss': 1.2114, 'grad_norm': 2.101332187652588, 'learning_rate': 3.254e-07, 'epoch': 1630.0}
  0%|          | 1631/1500000 [1:21:24<1076:58:28,  2.59s/it]                                                               0%|          | 1631/1500000 [1:21:24<1076:58:28,  2.59s/it]{'loss': 1.2179, 'grad_norm': 1.3432600498199463, 'learning_rate': 3.256e-07, 'epoch': 1631.0}
  0%|          | 1632/1500000 [1:21:27<1068:37:46,  2.57s/it]                                                               0%|          | 1632/1500000 [1:21:27<1068:37:46,  2.57s/it]{'loss': 1.2129, 'grad_norm': 1.3069723844528198, 'learning_rate': 3.258e-07, 'epoch': 1632.0}
  0%|          | 1633/1500000 [1:21:30<1092:21:01,  2.62s/it]                                                               0%|          | 1633/1500000 [1:21:30<1092:21:01,  2.62s/it]{'loss': 1.2241, 'grad_norm': 12.303507804870605, 'learning_rate': 3.2600000000000003e-07, 'epoch': 1633.0}
  0%|          | 1634/1500000 [1:21:32<1082:03:49,  2.60s/it]                                                               0%|          | 1634/1500000 [1:21:32<1082:03:49,  2.60s/it]{'loss': 1.2242, 'grad_norm': 2.2118005752563477, 'learning_rate': 3.2620000000000005e-07, 'epoch': 1634.0}
  0%|          | 1635/1500000 [1:21:35<1082:14:16,  2.60s/it]                                                               0%|          | 1635/1500000 [1:21:35<1082:14:16,  2.60s/it]{'loss': 1.2242, 'grad_norm': 2.118727922439575, 'learning_rate': 3.264e-07, 'epoch': 1635.0}
  0%|          | 1636/1500000 [1:21:37<1069:32:40,  2.57s/it]                                                               0%|          | 1636/1500000 [1:21:37<1069:32:40,  2.57s/it]{'loss': 1.2182, 'grad_norm': 4.019774436950684, 'learning_rate': 3.2659999999999997e-07, 'epoch': 1636.0}
  0%|          | 1637/1500000 [1:21:40<1066:21:25,  2.56s/it]                                                               0%|          | 1637/1500000 [1:21:40<1066:21:25,  2.56s/it]{'loss': 1.2005, 'grad_norm': 8.447818756103516, 'learning_rate': 3.268e-07, 'epoch': 1637.0}
  0%|          | 1638/1500000 [1:21:42<1060:47:33,  2.55s/it]                                                               0%|          | 1638/1500000 [1:21:42<1060:47:33,  2.55s/it]{'loss': 1.2142, 'grad_norm': 1.5243330001831055, 'learning_rate': 3.27e-07, 'epoch': 1638.0}
  0%|          | 1639/1500000 [1:21:45<1054:49:49,  2.53s/it]                                                               0%|          | 1639/1500000 [1:21:45<1054:49:49,  2.53s/it]{'loss': 1.2087, 'grad_norm': 2.3811960220336914, 'learning_rate': 3.272e-07, 'epoch': 1639.0}
  0%|          | 1640/1500000 [1:21:48<1088:44:48,  2.62s/it]                                                               0%|          | 1640/1500000 [1:21:48<1088:44:48,  2.62s/it]{'loss': 1.2063, 'grad_norm': 1.4505892992019653, 'learning_rate': 3.2740000000000003e-07, 'epoch': 1640.0}
  0%|          | 1641/1500000 [1:21:50<1080:19:24,  2.60s/it]                                                               0%|          | 1641/1500000 [1:21:50<1080:19:24,  2.60s/it]{'loss': 1.2139, 'grad_norm': 1.5699442625045776, 'learning_rate': 3.276e-07, 'epoch': 1641.0}
  0%|          | 1642/1500000 [1:21:53<1069:40:52,  2.57s/it]                                                               0%|          | 1642/1500000 [1:21:53<1069:40:52,  2.57s/it]{'loss': 1.2129, 'grad_norm': 3.9561476707458496, 'learning_rate': 3.278e-07, 'epoch': 1642.0}
  0%|          | 1643/1500000 [1:21:55<1063:53:52,  2.56s/it]                                                               0%|          | 1643/1500000 [1:21:55<1063:53:52,  2.56s/it]{'loss': 1.2102, 'grad_norm': 16.903974533081055, 'learning_rate': 3.28e-07, 'epoch': 1643.0}
  0%|          | 1644/1500000 [1:21:58<1056:10:57,  2.54s/it]                                                               0%|          | 1644/1500000 [1:21:58<1056:10:57,  2.54s/it]{'loss': 1.1998, 'grad_norm': 1.2962794303894043, 'learning_rate': 3.282e-07, 'epoch': 1644.0}
  0%|          | 1645/1500000 [1:22:00<1060:22:48,  2.55s/it]                                                               0%|          | 1645/1500000 [1:22:00<1060:22:48,  2.55s/it]{'loss': 1.2119, 'grad_norm': 2.686598777770996, 'learning_rate': 3.284e-07, 'epoch': 1645.0}
  0%|          | 1646/1500000 [1:22:03<1097:35:04,  2.64s/it]                                                               0%|          | 1646/1500000 [1:22:03<1097:35:04,  2.64s/it]{'loss': 1.2056, 'grad_norm': 6.672728538513184, 'learning_rate': 3.286e-07, 'epoch': 1646.0}
  0%|          | 1647/1500000 [1:22:06<1117:41:19,  2.69s/it]                                                               0%|          | 1647/1500000 [1:22:06<1117:41:19,  2.69s/it]{'loss': 1.2078, 'grad_norm': 1.6450212001800537, 'learning_rate': 3.288e-07, 'epoch': 1647.0}
  0%|          | 1648/1500000 [1:22:09<1140:39:00,  2.74s/it]                                                               0%|          | 1648/1500000 [1:22:09<1140:39:00,  2.74s/it]{'loss': 1.203, 'grad_norm': 1.8242605924606323, 'learning_rate': 3.29e-07, 'epoch': 1648.0}
  0%|          | 1649/1500000 [1:22:12<1146:40:29,  2.76s/it]                                                               0%|          | 1649/1500000 [1:22:12<1146:40:29,  2.76s/it]{'loss': 1.2056, 'grad_norm': 6.366954326629639, 'learning_rate': 3.292e-07, 'epoch': 1649.0}
  0%|          | 1650/1500000 [1:22:14<1155:24:14,  2.78s/it]                                                               0%|          | 1650/1500000 [1:22:14<1155:24:14,  2.78s/it]{'loss': 1.2063, 'grad_norm': 2.43586802482605, 'learning_rate': 3.294e-07, 'epoch': 1650.0}
  0%|          | 1651/1500000 [1:22:17<1124:08:45,  2.70s/it]                                                               0%|          | 1651/1500000 [1:22:17<1124:08:45,  2.70s/it]{'loss': 1.2234, 'grad_norm': 3.2611067295074463, 'learning_rate': 3.2960000000000004e-07, 'epoch': 1651.0}
  0%|          | 1652/1500000 [1:22:20<1213:58:50,  2.92s/it]                                                               0%|          | 1652/1500000 [1:22:20<1213:58:50,  2.92s/it]{'loss': 1.2046, 'grad_norm': 5.470059871673584, 'learning_rate': 3.2980000000000005e-07, 'epoch': 1652.0}
  0%|          | 1653/1500000 [1:22:23<1211:27:43,  2.91s/it]                                                               0%|          | 1653/1500000 [1:22:23<1211:27:43,  2.91s/it]{'loss': 1.2016, 'grad_norm': 1.2100154161453247, 'learning_rate': 3.2999999999999996e-07, 'epoch': 1653.0}
  0%|          | 1654/1500000 [1:22:26<1170:07:56,  2.81s/it]                                                               0%|          | 1654/1500000 [1:22:26<1170:07:56,  2.81s/it]{'loss': 1.2071, 'grad_norm': 1.5348302125930786, 'learning_rate': 3.302e-07, 'epoch': 1654.0}
  0%|          | 1655/1500000 [1:22:29<1167:33:34,  2.81s/it]                                                               0%|          | 1655/1500000 [1:22:29<1167:33:34,  2.81s/it]{'loss': 1.2064, 'grad_norm': 1.819833517074585, 'learning_rate': 3.304e-07, 'epoch': 1655.0}
  0%|          | 1656/1500000 [1:22:31<1143:09:34,  2.75s/it]                                                               0%|          | 1656/1500000 [1:22:31<1143:09:34,  2.75s/it]{'loss': 1.2, 'grad_norm': 4.330655574798584, 'learning_rate': 3.306e-07, 'epoch': 1656.0}
  0%|          | 1657/1500000 [1:22:34<1122:42:51,  2.70s/it]                                                               0%|          | 1657/1500000 [1:22:34<1122:42:51,  2.70s/it]{'loss': 1.2011, 'grad_norm': 1.265960454940796, 'learning_rate': 3.308e-07, 'epoch': 1657.0}
  0%|          | 1658/1500000 [1:22:36<1108:32:11,  2.66s/it]                                                               0%|          | 1658/1500000 [1:22:36<1108:32:11,  2.66s/it]{'loss': 1.1976, 'grad_norm': 1.2694329023361206, 'learning_rate': 3.31e-07, 'epoch': 1658.0}
  0%|          | 1659/1500000 [1:22:39<1136:47:21,  2.73s/it]                                                               0%|          | 1659/1500000 [1:22:39<1136:47:21,  2.73s/it]{'loss': 1.1984, 'grad_norm': 1.8703272342681885, 'learning_rate': 3.312e-07, 'epoch': 1659.0}
  0%|          | 1660/1500000 [1:22:42<1148:49:13,  2.76s/it]                                                               0%|          | 1660/1500000 [1:22:42<1148:49:13,  2.76s/it]{'loss': 1.2064, 'grad_norm': 1.5416918992996216, 'learning_rate': 3.314e-07, 'epoch': 1660.0}
  0%|          | 1661/1500000 [1:22:45<1127:13:11,  2.71s/it]                                                               0%|          | 1661/1500000 [1:22:45<1127:13:11,  2.71s/it]{'loss': 1.1996, 'grad_norm': 1.8579882383346558, 'learning_rate': 3.3160000000000003e-07, 'epoch': 1661.0}
  0%|          | 1662/1500000 [1:22:47<1110:06:35,  2.67s/it]                                                               0%|          | 1662/1500000 [1:22:47<1110:06:35,  2.67s/it]{'loss': 1.1961, 'grad_norm': 3.223735809326172, 'learning_rate': 3.3180000000000005e-07, 'epoch': 1662.0}
  0%|          | 1663/1500000 [1:22:50<1137:02:42,  2.73s/it]                                                               0%|          | 1663/1500000 [1:22:50<1137:02:42,  2.73s/it]{'loss': 1.1997, 'grad_norm': 1.261222243309021, 'learning_rate': 3.32e-07, 'epoch': 1663.0}
  0%|          | 1664/1500000 [1:22:53<1112:59:49,  2.67s/it]                                                               0%|          | 1664/1500000 [1:22:53<1112:59:49,  2.67s/it]{'loss': 1.1955, 'grad_norm': 27.19550323486328, 'learning_rate': 3.3219999999999997e-07, 'epoch': 1664.0}
  0%|          | 1665/1500000 [1:22:55<1096:43:01,  2.64s/it]                                                               0%|          | 1665/1500000 [1:22:55<1096:43:01,  2.64s/it]{'loss': 1.1902, 'grad_norm': 1.5464812517166138, 'learning_rate': 3.324e-07, 'epoch': 1665.0}
  0%|          | 1666/1500000 [1:22:58<1082:46:10,  2.60s/it]                                                               0%|          | 1666/1500000 [1:22:58<1082:46:10,  2.60s/it]{'loss': 1.1885, 'grad_norm': 1.864190697669983, 'learning_rate': 3.326e-07, 'epoch': 1666.0}
  0%|          | 1667/1500000 [1:23:00<1071:57:13,  2.58s/it]                                                               0%|          | 1667/1500000 [1:23:00<1071:57:13,  2.58s/it]{'loss': 1.1926, 'grad_norm': 1.5384844541549683, 'learning_rate': 3.328e-07, 'epoch': 1667.0}
  0%|          | 1668/1500000 [1:23:03<1072:21:11,  2.58s/it]                                                               0%|          | 1668/1500000 [1:23:03<1072:21:11,  2.58s/it]{'loss': 1.1947, 'grad_norm': 2.521151065826416, 'learning_rate': 3.3300000000000003e-07, 'epoch': 1668.0}
  0%|          | 1669/1500000 [1:23:05<1069:24:56,  2.57s/it]                                                               0%|          | 1669/1500000 [1:23:05<1069:24:56,  2.57s/it]{'loss': 1.2006, 'grad_norm': 1.7617874145507812, 'learning_rate': 3.3320000000000005e-07, 'epoch': 1669.0}
  0%|          | 1670/1500000 [1:23:08<1059:42:15,  2.55s/it]                                                               0%|          | 1670/1500000 [1:23:08<1059:42:15,  2.55s/it]{'loss': 1.196, 'grad_norm': 2.5755929946899414, 'learning_rate': 3.334e-07, 'epoch': 1670.0}
  0%|          | 1671/1500000 [1:23:11<1090:27:56,  2.62s/it]                                                               0%|          | 1671/1500000 [1:23:11<1090:27:56,  2.62s/it]{'loss': 1.1935, 'grad_norm': 2.354163408279419, 'learning_rate': 3.336e-07, 'epoch': 1671.0}
  0%|          | 1672/1500000 [1:23:13<1086:52:14,  2.61s/it]                                                               0%|          | 1672/1500000 [1:23:13<1086:52:14,  2.61s/it]{'loss': 1.1885, 'grad_norm': 7.191049575805664, 'learning_rate': 3.338e-07, 'epoch': 1672.0}
  0%|          | 1673/1500000 [1:23:16<1084:40:26,  2.61s/it]                                                               0%|          | 1673/1500000 [1:23:16<1084:40:26,  2.61s/it]{'loss': 1.1961, 'grad_norm': 2.7197256088256836, 'learning_rate': 3.34e-07, 'epoch': 1673.0}
  0%|          | 1674/1500000 [1:23:18<1076:26:20,  2.59s/it]                                                               0%|          | 1674/1500000 [1:23:18<1076:26:20,  2.59s/it]{'loss': 1.1833, 'grad_norm': 1.521736741065979, 'learning_rate': 3.342e-07, 'epoch': 1674.0}
  0%|          | 1675/1500000 [1:23:21<1071:50:32,  2.58s/it]                                                               0%|          | 1675/1500000 [1:23:21<1071:50:32,  2.58s/it]{'loss': 1.1856, 'grad_norm': 1.5484427213668823, 'learning_rate': 3.344e-07, 'epoch': 1675.0}
  0%|          | 1676/1500000 [1:23:23<1063:21:30,  2.55s/it]                                                               0%|          | 1676/1500000 [1:23:23<1063:21:30,  2.55s/it]{'loss': 1.1851, 'grad_norm': 1.138897180557251, 'learning_rate': 3.346e-07, 'epoch': 1676.0}
  0%|          | 1677/1500000 [1:23:26<1069:55:41,  2.57s/it]                                                               0%|          | 1677/1500000 [1:23:26<1069:55:41,  2.57s/it]{'loss': 1.1924, 'grad_norm': 1.5892763137817383, 'learning_rate': 3.348e-07, 'epoch': 1677.0}
  0%|          | 1678/1500000 [1:23:29<1064:58:42,  2.56s/it]                                                               0%|          | 1678/1500000 [1:23:29<1064:58:42,  2.56s/it]{'loss': 1.1929, 'grad_norm': 1.5360207557678223, 'learning_rate': 3.35e-07, 'epoch': 1678.0}
  0%|          | 1679/1500000 [1:23:31<1091:59:38,  2.62s/it]                                                               0%|          | 1679/1500000 [1:23:31<1091:59:38,  2.62s/it]{'loss': 1.1874, 'grad_norm': 2.1145455837249756, 'learning_rate': 3.3520000000000004e-07, 'epoch': 1679.0}
  0%|          | 1680/1500000 [1:23:34<1077:23:43,  2.59s/it]                                                               0%|          | 1680/1500000 [1:23:34<1077:23:43,  2.59s/it]{'loss': 1.1881, 'grad_norm': 11.57682991027832, 'learning_rate': 3.3540000000000005e-07, 'epoch': 1680.0}
  0%|          | 1681/1500000 [1:23:36<1070:57:00,  2.57s/it]                                                               0%|          | 1681/1500000 [1:23:36<1070:57:00,  2.57s/it]{'loss': 1.1764, 'grad_norm': 3.4804415702819824, 'learning_rate': 3.3559999999999996e-07, 'epoch': 1681.0}
  0%|          | 1682/1500000 [1:23:39<1104:37:09,  2.65s/it]                                                               0%|          | 1682/1500000 [1:23:39<1104:37:09,  2.65s/it]{'loss': 1.1808, 'grad_norm': 4.1383771896362305, 'learning_rate': 3.358e-07, 'epoch': 1682.0}
  0%|          | 1683/1500000 [1:23:42<1086:15:16,  2.61s/it]                                                               0%|          | 1683/1500000 [1:23:42<1086:15:16,  2.61s/it]{'loss': 1.1781, 'grad_norm': 2.7440505027770996, 'learning_rate': 3.36e-07, 'epoch': 1683.0}
  0%|          | 1684/1500000 [1:23:44<1080:45:47,  2.60s/it]                                                               0%|          | 1684/1500000 [1:23:44<1080:45:47,  2.60s/it]{'loss': 1.1765, 'grad_norm': 1.718110203742981, 'learning_rate': 3.362e-07, 'epoch': 1684.0}
  0%|          | 1685/1500000 [1:23:47<1073:11:18,  2.58s/it]                                                               0%|          | 1685/1500000 [1:23:47<1073:11:18,  2.58s/it]{'loss': 1.187, 'grad_norm': 4.281411647796631, 'learning_rate': 3.364e-07, 'epoch': 1685.0}
  0%|          | 1686/1500000 [1:23:49<1064:20:27,  2.56s/it]                                                               0%|          | 1686/1500000 [1:23:49<1064:20:27,  2.56s/it]{'loss': 1.1764, 'grad_norm': 1.1994739770889282, 'learning_rate': 3.3660000000000004e-07, 'epoch': 1686.0}
  0%|          | 1687/1500000 [1:23:52<1063:31:08,  2.56s/it]                                                               0%|          | 1687/1500000 [1:23:52<1063:31:08,  2.56s/it]{'loss': 1.1701, 'grad_norm': 1.169553518295288, 'learning_rate': 3.368e-07, 'epoch': 1687.0}
  0%|          | 1688/1500000 [1:23:54<1068:34:35,  2.57s/it]                                                               0%|          | 1688/1500000 [1:23:54<1068:34:35,  2.57s/it]{'loss': 1.189, 'grad_norm': 2.121837854385376, 'learning_rate': 3.37e-07, 'epoch': 1688.0}
  0%|          | 1689/1500000 [1:23:57<1066:01:25,  2.56s/it]                                                               0%|          | 1689/1500000 [1:23:57<1066:01:25,  2.56s/it]{'loss': 1.1828, 'grad_norm': 1.3787858486175537, 'learning_rate': 3.3720000000000003e-07, 'epoch': 1689.0}
  0%|          | 1690/1500000 [1:24:00<1095:57:28,  2.63s/it]                                                               0%|          | 1690/1500000 [1:24:00<1095:57:28,  2.63s/it]{'loss': 1.1754, 'grad_norm': 3.2821645736694336, 'learning_rate': 3.3740000000000004e-07, 'epoch': 1690.0}
  0%|          | 1691/1500000 [1:24:02<1086:39:25,  2.61s/it]                                                               0%|          | 1691/1500000 [1:24:02<1086:39:25,  2.61s/it]{'loss': 1.1695, 'grad_norm': 5.5948262214660645, 'learning_rate': 3.376e-07, 'epoch': 1691.0}
  0%|          | 1692/1500000 [1:24:05<1084:33:51,  2.61s/it]                                                               0%|          | 1692/1500000 [1:24:05<1084:33:51,  2.61s/it]{'loss': 1.1723, 'grad_norm': 1.9750312566757202, 'learning_rate': 3.3779999999999997e-07, 'epoch': 1692.0}
  0%|          | 1693/1500000 [1:24:08<1077:26:40,  2.59s/it]                                                               0%|          | 1693/1500000 [1:24:08<1077:26:40,  2.59s/it]{'loss': 1.1734, 'grad_norm': 1.3112483024597168, 'learning_rate': 3.38e-07, 'epoch': 1693.0}
  0%|          | 1694/1500000 [1:24:10<1102:06:48,  2.65s/it]                                                               0%|          | 1694/1500000 [1:24:10<1102:06:48,  2.65s/it]{'loss': 1.1833, 'grad_norm': 13.05428409576416, 'learning_rate': 3.382e-07, 'epoch': 1694.0}
  0%|          | 1695/1500000 [1:24:13<1120:00:47,  2.69s/it]                                                               0%|          | 1695/1500000 [1:24:13<1120:00:47,  2.69s/it]{'loss': 1.1735, 'grad_norm': 2.505679130554199, 'learning_rate': 3.384e-07, 'epoch': 1695.0}
  0%|          | 1696/1500000 [1:24:16<1136:54:00,  2.73s/it]                                                               0%|          | 1696/1500000 [1:24:16<1136:54:00,  2.73s/it]{'loss': 1.1722, 'grad_norm': 2.075270414352417, 'learning_rate': 3.3860000000000003e-07, 'epoch': 1696.0}
  0%|          | 1697/1500000 [1:24:18<1116:35:16,  2.68s/it]                                                               0%|          | 1697/1500000 [1:24:18<1116:35:16,  2.68s/it]{'loss': 1.1736, 'grad_norm': 2.9498167037963867, 'learning_rate': 3.3880000000000004e-07, 'epoch': 1697.0}
  0%|          | 1698/1500000 [1:24:21<1095:40:48,  2.63s/it]                                                               0%|          | 1698/1500000 [1:24:21<1095:40:48,  2.63s/it]{'loss': 1.1675, 'grad_norm': 1.4975881576538086, 'learning_rate': 3.39e-07, 'epoch': 1698.0}
  0%|          | 1699/1500000 [1:24:24<1087:36:25,  2.61s/it]                                                               0%|          | 1699/1500000 [1:24:24<1087:36:25,  2.61s/it]{'loss': 1.1679, 'grad_norm': 2.4534997940063477, 'learning_rate': 3.392e-07, 'epoch': 1699.0}
  0%|          | 1700/1500000 [1:24:26<1079:05:05,  2.59s/it]                                                               0%|          | 1700/1500000 [1:24:26<1079:05:05,  2.59s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.1702, 'grad_norm': 1.3727302551269531, 'learning_rate': 3.394e-07, 'epoch': 1700.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.64it/s][A
 43%|████▎     | 3/7 [00:02<00:04,  1.04s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.36s/it][A
 71%|███████▏  | 5/7 [00:05<00:02,  1.30s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.29s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.03it/s][A                                                             
                                             [A  0%|          | 1700/1500000 [1:25:10<1079:05:05,  2.59s/it]
100%|██████████| 7/7 [00:07<00:00,  1.03it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1500] due to args.save_total_limit
{'eval_loss': 3.377815008163452, 'eval_wer': 0.998509516166017, 'eval_cer': 0.869908948502056, 'eval_runtime': 16.2045, 'eval_samples_per_second': 60.662, 'eval_steps_per_second': 0.432, 'epoch': 1700.0}
  0%|          | 1701/1500000 [1:25:27<8346:36:13, 20.05s/it]                                                               0%|          | 1701/1500000 [1:25:27<8346:36:13, 20.05s/it]{'loss': 1.1786, 'grad_norm': 5.292076110839844, 'learning_rate': 3.396e-07, 'epoch': 1701.0}
  0%|          | 1702/1500000 [1:25:30<6191:39:37, 14.88s/it]                                                               0%|          | 1702/1500000 [1:25:30<6191:39:37, 14.88s/it]{'loss': 1.1685, 'grad_norm': 1.1618767976760864, 'learning_rate': 3.398e-07, 'epoch': 1702.0}
  0%|          | 1703/1500000 [1:25:32<4651:27:09, 11.18s/it]                                                               0%|          | 1703/1500000 [1:25:32<4651:27:09, 11.18s/it]{'loss': 1.1722, 'grad_norm': 1.2110379934310913, 'learning_rate': 3.4000000000000003e-07, 'epoch': 1703.0}
  0%|          | 1704/1500000 [1:25:35<3575:32:47,  8.59s/it]                                                               0%|          | 1704/1500000 [1:25:35<3575:32:47,  8.59s/it]{'loss': 1.1752, 'grad_norm': 1.5468965768814087, 'learning_rate': 3.402e-07, 'epoch': 1704.0}
  0%|          | 1705/1500000 [1:25:37<2824:23:53,  6.79s/it]                                                               0%|          | 1705/1500000 [1:25:37<2824:23:53,  6.79s/it]{'loss': 1.1626, 'grad_norm': 1.636052131652832, 'learning_rate': 3.404e-07, 'epoch': 1705.0}
  0%|          | 1706/1500000 [1:25:40<2328:59:54,  5.60s/it]                                                               0%|          | 1706/1500000 [1:25:40<2328:59:54,  5.60s/it]{'loss': 1.1598, 'grad_norm': 4.1398444175720215, 'learning_rate': 3.406e-07, 'epoch': 1706.0}
  0%|          | 1707/1500000 [1:25:43<1951:23:57,  4.69s/it]                                                               0%|          | 1707/1500000 [1:25:43<1951:23:57,  4.69s/it]{'loss': 1.1731, 'grad_norm': 8.038634300231934, 'learning_rate': 3.4080000000000003e-07, 'epoch': 1707.0}
  0%|          | 1708/1500000 [1:25:45<1675:07:18,  4.02s/it]                                                               0%|          | 1708/1500000 [1:25:45<1675:07:18,  4.02s/it]{'loss': 1.1647, 'grad_norm': 3.0671515464782715, 'learning_rate': 3.4100000000000005e-07, 'epoch': 1708.0}
  0%|          | 1709/1500000 [1:25:48<1489:34:45,  3.58s/it]                                                               0%|          | 1709/1500000 [1:25:48<1489:34:45,  3.58s/it]{'loss': 1.1627, 'grad_norm': 2.1707606315612793, 'learning_rate': 3.4119999999999996e-07, 'epoch': 1709.0}
  0%|          | 1710/1500000 [1:25:50<1347:58:00,  3.24s/it]                                                               0%|          | 1710/1500000 [1:25:50<1347:58:00,  3.24s/it]{'loss': 1.1574, 'grad_norm': 4.1062331199646, 'learning_rate': 3.4139999999999997e-07, 'epoch': 1710.0}
  0%|          | 1711/1500000 [1:25:53<1255:38:51,  3.02s/it]                                                               0%|          | 1711/1500000 [1:25:53<1255:38:51,  3.02s/it]{'loss': 1.1628, 'grad_norm': 1.7818479537963867, 'learning_rate': 3.416e-07, 'epoch': 1711.0}
  0%|          | 1712/1500000 [1:25:56<1225:10:00,  2.94s/it]                                                               0%|          | 1712/1500000 [1:25:56<1225:10:00,  2.94s/it]{'loss': 1.1631, 'grad_norm': 2.084437370300293, 'learning_rate': 3.418e-07, 'epoch': 1712.0}
  0%|          | 1713/1500000 [1:25:58<1164:56:57,  2.80s/it]                                                               0%|          | 1713/1500000 [1:25:58<1164:56:57,  2.80s/it]{'loss': 1.1567, 'grad_norm': 3.9503121376037598, 'learning_rate': 3.42e-07, 'epoch': 1713.0}
  0%|          | 1714/1500000 [1:26:01<1163:00:10,  2.79s/it]                                                               0%|          | 1714/1500000 [1:26:01<1163:00:10,  2.79s/it]{'loss': 1.1611, 'grad_norm': 2.0778586864471436, 'learning_rate': 3.4220000000000003e-07, 'epoch': 1714.0}
  0%|          | 1715/1500000 [1:26:04<1161:01:56,  2.79s/it]                                                               0%|          | 1715/1500000 [1:26:04<1161:01:56,  2.79s/it]{'loss': 1.1555, 'grad_norm': 2.7380881309509277, 'learning_rate': 3.424e-07, 'epoch': 1715.0}
  0%|          | 1716/1500000 [1:26:06<1122:52:17,  2.70s/it]                                                               0%|          | 1716/1500000 [1:26:06<1122:52:17,  2.70s/it]{'loss': 1.1583, 'grad_norm': 1.9787485599517822, 'learning_rate': 3.426e-07, 'epoch': 1716.0}
  0%|          | 1717/1500000 [1:26:08<1092:28:27,  2.62s/it]                                                               0%|          | 1717/1500000 [1:26:08<1092:28:27,  2.62s/it]{'loss': 1.1684, 'grad_norm': 4.956780910491943, 'learning_rate': 3.428e-07, 'epoch': 1717.0}
  0%|          | 1718/1500000 [1:26:11<1085:19:29,  2.61s/it]                                                               0%|          | 1718/1500000 [1:26:11<1085:19:29,  2.61s/it]{'loss': 1.1542, 'grad_norm': 1.2687814235687256, 'learning_rate': 3.4300000000000004e-07, 'epoch': 1718.0}
  0%|          | 1719/1500000 [1:26:14<1072:28:18,  2.58s/it]                                                               0%|          | 1719/1500000 [1:26:14<1072:28:18,  2.58s/it]{'loss': 1.1564, 'grad_norm': 2.9032557010650635, 'learning_rate': 3.432e-07, 'epoch': 1719.0}
  0%|          | 1720/1500000 [1:26:16<1064:22:43,  2.56s/it]                                                               0%|          | 1720/1500000 [1:26:16<1064:22:43,  2.56s/it]{'loss': 1.1576, 'grad_norm': 1.4977505207061768, 'learning_rate': 3.434e-07, 'epoch': 1720.0}
  0%|          | 1721/1500000 [1:26:19<1096:53:11,  2.64s/it]                                                               0%|          | 1721/1500000 [1:26:19<1096:53:11,  2.64s/it]{'loss': 1.1532, 'grad_norm': 1.7998610734939575, 'learning_rate': 3.436e-07, 'epoch': 1721.0}
  0%|          | 1722/1500000 [1:26:22<1119:07:04,  2.69s/it]                                                               0%|          | 1722/1500000 [1:26:22<1119:07:04,  2.69s/it]{'loss': 1.1569, 'grad_norm': 11.45747184753418, 'learning_rate': 3.438e-07, 'epoch': 1722.0}
  0%|          | 1723/1500000 [1:26:24<1132:48:28,  2.72s/it]                                                               0%|          | 1723/1500000 [1:26:25<1132:48:28,  2.72s/it]{'loss': 1.1556, 'grad_norm': 3.1242079734802246, 'learning_rate': 3.44e-07, 'epoch': 1723.0}
  0%|          | 1724/1500000 [1:26:27<1105:53:05,  2.66s/it]                                                               0%|          | 1724/1500000 [1:26:27<1105:53:05,  2.66s/it]{'loss': 1.1605, 'grad_norm': 1.255489706993103, 'learning_rate': 3.442e-07, 'epoch': 1724.0}
  0%|          | 1725/1500000 [1:26:29<1083:13:43,  2.60s/it]                                                               0%|          | 1725/1500000 [1:26:29<1083:13:43,  2.60s/it]{'loss': 1.1497, 'grad_norm': 2.8930437564849854, 'learning_rate': 3.4440000000000004e-07, 'epoch': 1725.0}
  0%|          | 1726/1500000 [1:26:32<1067:08:07,  2.56s/it]                                                               0%|          | 1726/1500000 [1:26:32<1067:08:07,  2.56s/it]{'loss': 1.1599, 'grad_norm': 2.940558433532715, 'learning_rate': 3.446e-07, 'epoch': 1726.0}
  0%|          | 1727/1500000 [1:26:34<1065:45:06,  2.56s/it]                                                               0%|          | 1727/1500000 [1:26:35<1065:45:06,  2.56s/it]{'loss': 1.156, 'grad_norm': 2.637667417526245, 'learning_rate': 3.448e-07, 'epoch': 1727.0}
  0%|          | 1728/1500000 [1:26:37<1065:27:49,  2.56s/it]                                                               0%|          | 1728/1500000 [1:26:37<1065:27:49,  2.56s/it]{'loss': 1.1583, 'grad_norm': 12.856712341308594, 'learning_rate': 3.45e-07, 'epoch': 1728.0}
  0%|          | 1729/1500000 [1:26:40<1085:09:48,  2.61s/it]                                                               0%|          | 1729/1500000 [1:26:40<1085:09:48,  2.61s/it]{'loss': 1.1608, 'grad_norm': 2.075578451156616, 'learning_rate': 3.452e-07, 'epoch': 1729.0}
  0%|          | 1730/1500000 [1:26:42<1079:54:09,  2.59s/it]                                                               0%|          | 1730/1500000 [1:26:42<1079:54:09,  2.59s/it]{'loss': 1.1555, 'grad_norm': 1.6573898792266846, 'learning_rate': 3.454e-07, 'epoch': 1730.0}
  0%|          | 1731/1500000 [1:26:45<1102:40:47,  2.65s/it]                                                               0%|          | 1731/1500000 [1:26:45<1102:40:47,  2.65s/it]{'loss': 1.1456, 'grad_norm': 1.3914738893508911, 'learning_rate': 3.456e-07, 'epoch': 1731.0}
  0%|          | 1732/1500000 [1:26:48<1088:53:01,  2.62s/it]                                                               0%|          | 1732/1500000 [1:26:48<1088:53:01,  2.62s/it]{'loss': 1.1592, 'grad_norm': 12.494815826416016, 'learning_rate': 3.458e-07, 'epoch': 1732.0}
  0%|          | 1733/1500000 [1:26:50<1079:24:37,  2.59s/it]                                                               0%|          | 1733/1500000 [1:26:50<1079:24:37,  2.59s/it]{'loss': 1.1448, 'grad_norm': 1.4735431671142578, 'learning_rate': 3.46e-07, 'epoch': 1733.0}
  0%|          | 1734/1500000 [1:26:53<1064:37:41,  2.56s/it]                                                               0%|          | 1734/1500000 [1:26:53<1064:37:41,  2.56s/it]{'loss': 1.1512, 'grad_norm': 1.5562881231307983, 'learning_rate': 3.462e-07, 'epoch': 1734.0}
  0%|          | 1735/1500000 [1:26:55<1053:04:47,  2.53s/it]                                                               0%|          | 1735/1500000 [1:26:55<1053:04:47,  2.53s/it]{'loss': 1.1426, 'grad_norm': 10.22114086151123, 'learning_rate': 3.4640000000000003e-07, 'epoch': 1735.0}
  0%|          | 1736/1500000 [1:26:58<1039:00:40,  2.50s/it]                                                               0%|          | 1736/1500000 [1:26:58<1039:00:40,  2.50s/it]{'loss': 1.1569, 'grad_norm': 3.208482027053833, 'learning_rate': 3.4660000000000005e-07, 'epoch': 1736.0}
  0%|          | 1737/1500000 [1:27:00<1049:36:12,  2.52s/it]                                                               0%|          | 1737/1500000 [1:27:00<1049:36:12,  2.52s/it]{'loss': 1.1488, 'grad_norm': 2.6435706615448, 'learning_rate': 3.468e-07, 'epoch': 1737.0}
  0%|          | 1738/1500000 [1:27:03<1049:53:49,  2.52s/it]                                                               0%|          | 1738/1500000 [1:27:03<1049:53:49,  2.52s/it]{'loss': 1.1557, 'grad_norm': 9.86079216003418, 'learning_rate': 3.4699999999999997e-07, 'epoch': 1738.0}
  0%|          | 1739/1500000 [1:27:05<1047:08:14,  2.52s/it]                                                               0%|          | 1739/1500000 [1:27:05<1047:08:14,  2.52s/it]{'loss': 1.1513, 'grad_norm': 1.3505233526229858, 'learning_rate': 3.472e-07, 'epoch': 1739.0}
  0%|          | 1740/1500000 [1:27:08<1078:46:53,  2.59s/it]                                                               0%|          | 1740/1500000 [1:27:08<1078:46:53,  2.59s/it]{'loss': 1.146, 'grad_norm': 1.8209373950958252, 'learning_rate': 3.474e-07, 'epoch': 1740.0}
  0%|          | 1741/1500000 [1:27:10<1071:59:57,  2.58s/it]                                                               0%|          | 1741/1500000 [1:27:10<1071:59:57,  2.58s/it]{'loss': 1.1468, 'grad_norm': 2.5791234970092773, 'learning_rate': 3.476e-07, 'epoch': 1741.0}
  0%|          | 1742/1500000 [1:27:13<1066:47:28,  2.56s/it]                                                               0%|          | 1742/1500000 [1:27:13<1066:47:28,  2.56s/it]{'loss': 1.141, 'grad_norm': 1.6958152055740356, 'learning_rate': 3.4780000000000003e-07, 'epoch': 1742.0}
  0%|          | 1743/1500000 [1:27:15<1052:35:27,  2.53s/it]                                                               0%|          | 1743/1500000 [1:27:15<1052:35:27,  2.53s/it]{'loss': 1.1462, 'grad_norm': 1.8657310009002686, 'learning_rate': 3.48e-07, 'epoch': 1743.0}
  0%|          | 1744/1500000 [1:27:18<1050:49:01,  2.52s/it]                                                               0%|          | 1744/1500000 [1:27:18<1050:49:01,  2.52s/it]{'loss': 1.1386, 'grad_norm': 1.3488317728042603, 'learning_rate': 3.482e-07, 'epoch': 1744.0}
  0%|          | 1745/1500000 [1:27:20<1051:39:26,  2.53s/it]                                                               0%|          | 1745/1500000 [1:27:21<1051:39:26,  2.53s/it]{'loss': 1.1421, 'grad_norm': 2.1146225929260254, 'learning_rate': 3.484e-07, 'epoch': 1745.0}
  0%|          | 1746/1500000 [1:27:23<1064:09:21,  2.56s/it]                                                               0%|          | 1746/1500000 [1:27:23<1064:09:21,  2.56s/it]{'loss': 1.1487, 'grad_norm': 1.71220064163208, 'learning_rate': 3.4860000000000004e-07, 'epoch': 1746.0}
  0%|          | 1747/1500000 [1:27:26<1065:48:33,  2.56s/it]                                                               0%|          | 1747/1500000 [1:27:26<1065:48:33,  2.56s/it]{'loss': 1.1391, 'grad_norm': 1.4266749620437622, 'learning_rate': 3.488e-07, 'epoch': 1747.0}
  0%|          | 1748/1500000 [1:27:28<1059:48:38,  2.55s/it]                                                               0%|          | 1748/1500000 [1:27:28<1059:48:38,  2.55s/it]{'loss': 1.1499, 'grad_norm': 1.2464696168899536, 'learning_rate': 3.49e-07, 'epoch': 1748.0}
  0%|          | 1749/1500000 [1:27:31<1091:46:50,  2.62s/it]                                                               0%|          | 1749/1500000 [1:27:31<1091:46:50,  2.62s/it]{'loss': 1.1448, 'grad_norm': 1.5717968940734863, 'learning_rate': 3.492e-07, 'epoch': 1749.0}
  0%|          | 1750/1500000 [1:27:34<1121:11:18,  2.69s/it]                                                               0%|          | 1750/1500000 [1:27:34<1121:11:18,  2.69s/it]{'loss': 1.1442, 'grad_norm': 3.641746997833252, 'learning_rate': 3.494e-07, 'epoch': 1750.0}
  0%|          | 1751/1500000 [1:27:37<1145:29:06,  2.75s/it]                                                               0%|          | 1751/1500000 [1:27:37<1145:29:06,  2.75s/it]{'loss': 1.1361, 'grad_norm': 7.339561939239502, 'learning_rate': 3.496e-07, 'epoch': 1751.0}
  0%|          | 1752/1500000 [1:27:39<1106:12:02,  2.66s/it]                                                               0%|          | 1752/1500000 [1:27:39<1106:12:02,  2.66s/it]{'loss': 1.1362, 'grad_norm': 4.024227142333984, 'learning_rate': 3.498e-07, 'epoch': 1752.0}
  0%|          | 1753/1500000 [1:27:42<1124:35:58,  2.70s/it]                                                               0%|          | 1753/1500000 [1:27:42<1124:35:58,  2.70s/it]{'loss': 1.1385, 'grad_norm': 1.528404712677002, 'learning_rate': 3.5000000000000004e-07, 'epoch': 1753.0}
  0%|          | 1754/1500000 [1:27:44<1092:33:25,  2.63s/it]                                                               0%|          | 1754/1500000 [1:27:44<1092:33:25,  2.63s/it]{'loss': 1.1433, 'grad_norm': 1.4994982481002808, 'learning_rate': 3.5020000000000005e-07, 'epoch': 1754.0}
  0%|          | 1755/1500000 [1:27:47<1088:00:56,  2.61s/it]                                                               0%|          | 1755/1500000 [1:27:47<1088:00:56,  2.61s/it]{'loss': 1.139, 'grad_norm': 1.5565325021743774, 'learning_rate': 3.504e-07, 'epoch': 1755.0}
  0%|          | 1756/1500000 [1:27:50<1072:14:31,  2.58s/it]                                                               0%|          | 1756/1500000 [1:27:50<1072:14:31,  2.58s/it]{'loss': 1.1251, 'grad_norm': 2.3059680461883545, 'learning_rate': 3.506e-07, 'epoch': 1756.0}
  0%|          | 1757/1500000 [1:27:52<1057:23:17,  2.54s/it]                                                               0%|          | 1757/1500000 [1:27:52<1057:23:17,  2.54s/it]{'loss': 1.1369, 'grad_norm': 2.5180861949920654, 'learning_rate': 3.508e-07, 'epoch': 1757.0}
  0%|          | 1758/1500000 [1:27:54<1050:47:56,  2.52s/it]                                                               0%|          | 1758/1500000 [1:27:54<1050:47:56,  2.52s/it]{'loss': 1.1297, 'grad_norm': 14.407541275024414, 'learning_rate': 3.51e-07, 'epoch': 1758.0}
  0%|          | 1759/1500000 [1:27:57<1049:44:07,  2.52s/it]                                                               0%|          | 1759/1500000 [1:27:57<1049:44:07,  2.52s/it]{'loss': 1.1441, 'grad_norm': 6.3038554191589355, 'learning_rate': 3.512e-07, 'epoch': 1759.0}
  0%|          | 1760/1500000 [1:28:00<1052:16:13,  2.53s/it]                                                               0%|          | 1760/1500000 [1:28:00<1052:16:13,  2.53s/it]{'loss': 1.1245, 'grad_norm': 1.3510055541992188, 'learning_rate': 3.514e-07, 'epoch': 1760.0}
  0%|          | 1761/1500000 [1:28:02<1047:12:22,  2.52s/it]                                                               0%|          | 1761/1500000 [1:28:02<1047:12:22,  2.52s/it]{'loss': 1.1262, 'grad_norm': 1.8307194709777832, 'learning_rate': 3.516e-07, 'epoch': 1761.0}
  0%|          | 1762/1500000 [1:28:05<1063:05:19,  2.55s/it]                                                               0%|          | 1762/1500000 [1:28:05<1063:05:19,  2.55s/it]{'loss': 1.121, 'grad_norm': 2.2812893390655518, 'learning_rate': 3.518e-07, 'epoch': 1762.0}
  0%|          | 1763/1500000 [1:28:07<1056:55:04,  2.54s/it]                                                               0%|          | 1763/1500000 [1:28:07<1056:55:04,  2.54s/it]{'loss': 1.1243, 'grad_norm': 2.0191550254821777, 'learning_rate': 3.5200000000000003e-07, 'epoch': 1763.0}
  0%|          | 1764/1500000 [1:28:10<1051:21:36,  2.53s/it]                                                               0%|          | 1764/1500000 [1:28:10<1051:21:36,  2.53s/it]{'loss': 1.1301, 'grad_norm': 1.18809175491333, 'learning_rate': 3.5220000000000004e-07, 'epoch': 1764.0}
  0%|          | 1765/1500000 [1:28:12<1063:11:04,  2.55s/it]                                                               0%|          | 1765/1500000 [1:28:12<1063:11:04,  2.55s/it]{'loss': 1.1276, 'grad_norm': 2.3240909576416016, 'learning_rate': 3.524e-07, 'epoch': 1765.0}
  0%|          | 1766/1500000 [1:28:15<1067:09:40,  2.56s/it]                                                               0%|          | 1766/1500000 [1:28:15<1067:09:40,  2.56s/it]{'loss': 1.1265, 'grad_norm': 1.6343348026275635, 'learning_rate': 3.5259999999999997e-07, 'epoch': 1766.0}
  0%|          | 1767/1500000 [1:28:18<1092:02:35,  2.62s/it]                                                               0%|          | 1767/1500000 [1:28:18<1092:02:35,  2.62s/it]{'loss': 1.1288, 'grad_norm': 7.483031749725342, 'learning_rate': 3.528e-07, 'epoch': 1767.0}
  0%|          | 1768/1500000 [1:28:20<1074:36:24,  2.58s/it]                                                               0%|          | 1768/1500000 [1:28:20<1074:36:24,  2.58s/it]{'loss': 1.1267, 'grad_norm': 2.2185983657836914, 'learning_rate': 3.53e-07, 'epoch': 1768.0}
  0%|          | 1769/1500000 [1:28:23<1060:28:35,  2.55s/it]                                                               0%|          | 1769/1500000 [1:28:23<1060:28:35,  2.55s/it]{'loss': 1.125, 'grad_norm': 3.027740240097046, 'learning_rate': 3.532e-07, 'epoch': 1769.0}
  0%|          | 1770/1500000 [1:28:25<1106:04:10,  2.66s/it]                                                               0%|          | 1770/1500000 [1:28:26<1106:04:10,  2.66s/it]{'loss': 1.1326, 'grad_norm': 4.497382164001465, 'learning_rate': 3.5340000000000003e-07, 'epoch': 1770.0}
  0%|          | 1771/1500000 [1:28:28<1080:23:22,  2.60s/it]                                                               0%|          | 1771/1500000 [1:28:28<1080:23:22,  2.60s/it]{'loss': 1.1281, 'grad_norm': 2.185215950012207, 'learning_rate': 3.5360000000000004e-07, 'epoch': 1771.0}
  0%|          | 1772/1500000 [1:28:31<1102:17:10,  2.65s/it]                                                               0%|          | 1772/1500000 [1:28:31<1102:17:10,  2.65s/it]{'loss': 1.1358, 'grad_norm': 3.2465991973876953, 'learning_rate': 3.538e-07, 'epoch': 1772.0}
  0%|          | 1773/1500000 [1:28:33<1116:07:06,  2.68s/it]                                                               0%|          | 1773/1500000 [1:28:33<1116:07:06,  2.68s/it]{'loss': 1.1277, 'grad_norm': 1.7668930292129517, 'learning_rate': 3.54e-07, 'epoch': 1773.0}
  0%|          | 1774/1500000 [1:28:36<1119:51:40,  2.69s/it]                                                               0%|          | 1774/1500000 [1:28:36<1119:51:40,  2.69s/it]{'loss': 1.115, 'grad_norm': 1.8266369104385376, 'learning_rate': 3.5420000000000004e-07, 'epoch': 1774.0}
  0%|          | 1775/1500000 [1:28:39<1104:56:20,  2.65s/it]                                                               0%|          | 1775/1500000 [1:28:39<1104:56:20,  2.65s/it]{'loss': 1.1142, 'grad_norm': 1.360504388809204, 'learning_rate': 3.544e-07, 'epoch': 1775.0}
  0%|          | 1776/1500000 [1:28:41<1086:30:08,  2.61s/it]                                                               0%|          | 1776/1500000 [1:28:41<1086:30:08,  2.61s/it]{'loss': 1.1101, 'grad_norm': 1.234402060508728, 'learning_rate': 3.546e-07, 'epoch': 1776.0}
  0%|          | 1777/1500000 [1:28:44<1075:40:09,  2.58s/it]                                                               0%|          | 1777/1500000 [1:28:44<1075:40:09,  2.58s/it]{'loss': 1.1163, 'grad_norm': 1.384182333946228, 'learning_rate': 3.548e-07, 'epoch': 1777.0}
  0%|          | 1778/1500000 [1:28:47<1109:40:27,  2.67s/it]                                                               0%|          | 1778/1500000 [1:28:47<1109:40:27,  2.67s/it]{'loss': 1.1135, 'grad_norm': 1.2074108123779297, 'learning_rate': 3.55e-07, 'epoch': 1778.0}
  0%|          | 1779/1500000 [1:28:49<1087:28:53,  2.61s/it]                                                               0%|          | 1779/1500000 [1:28:49<1087:28:53,  2.61s/it]{'loss': 1.1163, 'grad_norm': 1.4593080282211304, 'learning_rate': 3.552e-07, 'epoch': 1779.0}
  0%|          | 1780/1500000 [1:28:52<1075:09:23,  2.58s/it]                                                               0%|          | 1780/1500000 [1:28:52<1075:09:23,  2.58s/it]{'loss': 1.1132, 'grad_norm': 5.160821437835693, 'learning_rate': 3.554e-07, 'epoch': 1780.0}
  0%|          | 1781/1500000 [1:28:54<1062:37:35,  2.55s/it]                                                               0%|          | 1781/1500000 [1:28:54<1062:37:35,  2.55s/it]{'loss': 1.1068, 'grad_norm': 3.3651394844055176, 'learning_rate': 3.5560000000000003e-07, 'epoch': 1781.0}
  0%|          | 1782/1500000 [1:28:57<1060:06:45,  2.55s/it]                                                               0%|          | 1782/1500000 [1:28:57<1060:06:45,  2.55s/it]{'loss': 1.1113, 'grad_norm': 1.7698310613632202, 'learning_rate': 3.5580000000000005e-07, 'epoch': 1782.0}
  0%|          | 1783/1500000 [1:28:59<1048:30:44,  2.52s/it]                                                               0%|          | 1783/1500000 [1:28:59<1048:30:44,  2.52s/it]{'loss': 1.1254, 'grad_norm': 4.724035263061523, 'learning_rate': 3.56e-07, 'epoch': 1783.0}
  0%|          | 1784/1500000 [1:29:02<1044:33:48,  2.51s/it]                                                               0%|          | 1784/1500000 [1:29:02<1044:33:48,  2.51s/it]{'loss': 1.1173, 'grad_norm': 3.7347774505615234, 'learning_rate': 3.5619999999999997e-07, 'epoch': 1784.0}
  0%|          | 1785/1500000 [1:29:04<1029:48:10,  2.47s/it]                                                               0%|          | 1785/1500000 [1:29:04<1029:48:10,  2.47s/it]{'loss': 1.1199, 'grad_norm': 1.6310020685195923, 'learning_rate': 3.564e-07, 'epoch': 1785.0}
  0%|          | 1786/1500000 [1:29:07<1070:48:40,  2.57s/it]                                                               0%|          | 1786/1500000 [1:29:07<1070:48:40,  2.57s/it]{'loss': 1.116, 'grad_norm': 3.2506184577941895, 'learning_rate': 3.566e-07, 'epoch': 1786.0}
  0%|          | 1787/1500000 [1:29:09<1067:17:43,  2.56s/it]                                                               0%|          | 1787/1500000 [1:29:09<1067:17:43,  2.56s/it]{'loss': 1.1142, 'grad_norm': 10.7584810256958, 'learning_rate': 3.568e-07, 'epoch': 1787.0}
  0%|          | 1788/1500000 [1:29:12<1102:50:52,  2.65s/it]                                                               0%|          | 1788/1500000 [1:29:12<1102:50:52,  2.65s/it]{'loss': 1.1209, 'grad_norm': 7.282529354095459, 'learning_rate': 3.5700000000000003e-07, 'epoch': 1788.0}
  0%|          | 1789/1500000 [1:29:15<1125:38:16,  2.70s/it]                                                               0%|          | 1789/1500000 [1:29:15<1125:38:16,  2.70s/it]{'loss': 1.119, 'grad_norm': 4.480122089385986, 'learning_rate': 3.572e-07, 'epoch': 1789.0}
  0%|          | 1790/1500000 [1:29:18<1134:22:27,  2.73s/it]                                                               0%|          | 1790/1500000 [1:29:18<1134:22:27,  2.73s/it]{'loss': 1.1009, 'grad_norm': 10.031559944152832, 'learning_rate': 3.574e-07, 'epoch': 1790.0}
  0%|          | 1791/1500000 [1:29:20<1114:48:53,  2.68s/it]                                                               0%|          | 1791/1500000 [1:29:20<1114:48:53,  2.68s/it]{'loss': 1.1122, 'grad_norm': 2.2900354862213135, 'learning_rate': 3.576e-07, 'epoch': 1791.0}
  0%|          | 1792/1500000 [1:29:23<1101:09:08,  2.65s/it]                                                               0%|          | 1792/1500000 [1:29:23<1101:09:08,  2.65s/it]{'loss': 1.1049, 'grad_norm': 1.2120695114135742, 'learning_rate': 3.5780000000000004e-07, 'epoch': 1792.0}
  0%|          | 1793/1500000 [1:29:25<1086:43:01,  2.61s/it]                                                               0%|          | 1793/1500000 [1:29:25<1086:43:01,  2.61s/it]{'loss': 1.1049, 'grad_norm': 2.4097769260406494, 'learning_rate': 3.58e-07, 'epoch': 1793.0}
  0%|          | 1794/1500000 [1:29:28<1074:57:24,  2.58s/it]                                                               0%|          | 1794/1500000 [1:29:28<1074:57:24,  2.58s/it]{'loss': 1.1063, 'grad_norm': 1.5064976215362549, 'learning_rate': 3.5819999999999996e-07, 'epoch': 1794.0}
  0%|          | 1795/1500000 [1:29:31<1107:51:20,  2.66s/it]                                                               0%|          | 1795/1500000 [1:29:31<1107:51:20,  2.66s/it]{'loss': 1.1033, 'grad_norm': 5.138500690460205, 'learning_rate': 3.584e-07, 'epoch': 1795.0}
  0%|          | 1796/1500000 [1:29:33<1088:30:00,  2.62s/it]                                                               0%|          | 1796/1500000 [1:29:33<1088:30:00,  2.62s/it]{'loss': 1.0998, 'grad_norm': 1.1716537475585938, 'learning_rate': 3.586e-07, 'epoch': 1796.0}
  0%|          | 1797/1500000 [1:29:36<1073:07:04,  2.58s/it]                                                               0%|          | 1797/1500000 [1:29:36<1073:07:04,  2.58s/it]{'loss': 1.1094, 'grad_norm': 1.614797592163086, 'learning_rate': 3.588e-07, 'epoch': 1797.0}
  0%|          | 1798/1500000 [1:29:38<1068:29:48,  2.57s/it]                                                               0%|          | 1798/1500000 [1:29:38<1068:29:48,  2.57s/it]{'loss': 1.1122, 'grad_norm': 1.7057485580444336, 'learning_rate': 3.59e-07, 'epoch': 1798.0}
  0%|          | 1799/1500000 [1:29:41<1061:55:34,  2.55s/it]                                                               0%|          | 1799/1500000 [1:29:41<1061:55:34,  2.55s/it]{'loss': 1.1019, 'grad_norm': 1.3354651927947998, 'learning_rate': 3.5920000000000004e-07, 'epoch': 1799.0}
  0%|          | 1800/1500000 [1:29:43<1062:30:18,  2.55s/it]                                                               0%|          | 1800/1500000 [1:29:43<1062:30:18,  2.55s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.1001, 'grad_norm': 3.1922762393951416, 'learning_rate': 3.594e-07, 'epoch': 1800.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.11it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.21s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.23s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.26s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.27s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.04it/s][A                                                             
                                             [A  0%|          | 1800/1500000 [1:30:25<1062:30:18,  2.55s/it]
100%|██████████| 7/7 [00:08<00:00,  1.04it/s][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1600] due to args.save_total_limit
{'eval_loss': 3.3645334243774414, 'eval_wer': 1.0016051364365972, 'eval_cer': 0.8489817897004112, 'eval_runtime': 14.5327, 'eval_samples_per_second': 67.641, 'eval_steps_per_second': 0.482, 'epoch': 1800.0}
  0%|          | 1801/1500000 [1:30:42<8071:56:17, 19.40s/it]                                                               0%|          | 1801/1500000 [1:30:42<8071:56:17, 19.40s/it]{'loss': 1.0903, 'grad_norm': 2.1128766536712646, 'learning_rate': 3.596e-07, 'epoch': 1801.0}
  0%|          | 1802/1500000 [1:30:45<6004:28:12, 14.43s/it]                                                               0%|          | 1802/1500000 [1:30:45<6004:28:12, 14.43s/it]{'loss': 1.1043, 'grad_norm': 2.7768032550811768, 'learning_rate': 3.5980000000000003e-07, 'epoch': 1802.0}
  0%|          | 1803/1500000 [1:30:48<4557:23:33, 10.95s/it]                                                               0%|          | 1803/1500000 [1:30:48<4557:23:33, 10.95s/it]{'loss': 1.1006, 'grad_norm': 1.2471301555633545, 'learning_rate': 3.6e-07, 'epoch': 1803.0}
  0%|          | 1804/1500000 [1:30:51<3536:35:31,  8.50s/it]                                                               0%|          | 1804/1500000 [1:30:51<3536:35:31,  8.50s/it]{'loss': 1.0859, 'grad_norm': 1.5543701648712158, 'learning_rate': 3.602e-07, 'epoch': 1804.0}
  0%|          | 1805/1500000 [1:30:53<2830:20:22,  6.80s/it]                                                               0%|          | 1805/1500000 [1:30:53<2830:20:22,  6.80s/it]{'loss': 1.1066, 'grad_norm': 2.2299749851226807, 'learning_rate': 3.604e-07, 'epoch': 1805.0}
  0%|          | 1806/1500000 [1:30:56<2328:39:34,  5.60s/it]                                                               0%|          | 1806/1500000 [1:30:56<2328:39:34,  5.60s/it]{'loss': 1.0979, 'grad_norm': 3.0181260108947754, 'learning_rate': 3.606e-07, 'epoch': 1806.0}
  0%|          | 1807/1500000 [1:30:59<1974:13:30,  4.74s/it]                                                               0%|          | 1807/1500000 [1:30:59<1974:13:30,  4.74s/it]{'loss': 1.1039, 'grad_norm': 7.510712623596191, 'learning_rate': 3.608e-07, 'epoch': 1807.0}
  0%|          | 1808/1500000 [1:31:02<1743:28:12,  4.19s/it]                                                               0%|          | 1808/1500000 [1:31:02<1743:28:12,  4.19s/it]{'loss': 1.1058, 'grad_norm': 4.219446182250977, 'learning_rate': 3.61e-07, 'epoch': 1808.0}
  0%|          | 1809/1500000 [1:31:05<1566:56:04,  3.77s/it]                                                               0%|          | 1809/1500000 [1:31:05<1566:56:04,  3.77s/it]{'loss': 1.0959, 'grad_norm': 2.264202833175659, 'learning_rate': 3.6120000000000003e-07, 'epoch': 1809.0}
  0%|          | 1810/1500000 [1:31:07<1453:17:29,  3.49s/it]                                                               0%|          | 1810/1500000 [1:31:08<1453:17:29,  3.49s/it]{'loss': 1.0962, 'grad_norm': 3.865661144256592, 'learning_rate': 3.6140000000000005e-07, 'epoch': 1810.0}
  0%|          | 1811/1500000 [1:31:10<1341:28:07,  3.22s/it]                                                               0%|          | 1811/1500000 [1:31:10<1341:28:07,  3.22s/it]{'loss': 1.0942, 'grad_norm': 1.7925447225570679, 'learning_rate': 3.616e-07, 'epoch': 1811.0}
  0%|          | 1812/1500000 [1:31:13<1258:34:37,  3.02s/it]                                                               0%|          | 1812/1500000 [1:31:13<1258:34:37,  3.02s/it]{'loss': 1.086, 'grad_norm': 1.437404751777649, 'learning_rate': 3.6179999999999997e-07, 'epoch': 1812.0}
  0%|          | 1813/1500000 [1:31:15<1197:16:29,  2.88s/it]                                                               0%|          | 1813/1500000 [1:31:15<1197:16:29,  2.88s/it]{'loss': 1.0827, 'grad_norm': 1.4682856798171997, 'learning_rate': 3.62e-07, 'epoch': 1813.0}
  0%|          | 1814/1500000 [1:31:18<1156:13:34,  2.78s/it]                                                               0%|          | 1814/1500000 [1:31:18<1156:13:34,  2.78s/it]{'loss': 1.0977, 'grad_norm': 2.8109982013702393, 'learning_rate': 3.622e-07, 'epoch': 1814.0}
  0%|          | 1815/1500000 [1:31:20<1121:38:59,  2.70s/it]                                                               0%|          | 1815/1500000 [1:31:20<1121:38:59,  2.70s/it]{'loss': 1.0853, 'grad_norm': 1.439884901046753, 'learning_rate': 3.624e-07, 'epoch': 1815.0}
  0%|          | 1816/1500000 [1:31:23<1133:02:41,  2.72s/it]                                                               0%|          | 1816/1500000 [1:31:23<1133:02:41,  2.72s/it]{'loss': 1.0911, 'grad_norm': 2.6447877883911133, 'learning_rate': 3.6260000000000003e-07, 'epoch': 1816.0}
  0%|          | 1817/1500000 [1:31:26<1116:27:11,  2.68s/it]                                                               0%|          | 1817/1500000 [1:31:26<1116:27:11,  2.68s/it]{'loss': 1.0872, 'grad_norm': 10.722591400146484, 'learning_rate': 3.628e-07, 'epoch': 1817.0}
  0%|          | 1818/1500000 [1:31:28<1098:45:36,  2.64s/it]                                                               0%|          | 1818/1500000 [1:31:28<1098:45:36,  2.64s/it]{'loss': 1.0845, 'grad_norm': 1.708227515220642, 'learning_rate': 3.63e-07, 'epoch': 1818.0}
  0%|          | 1819/1500000 [1:31:31<1089:56:29,  2.62s/it]                                                               0%|          | 1819/1500000 [1:31:31<1089:56:29,  2.62s/it]{'loss': 1.0894, 'grad_norm': 1.6496611833572388, 'learning_rate': 3.632e-07, 'epoch': 1819.0}
  0%|          | 1820/1500000 [1:31:33<1077:52:33,  2.59s/it]                                                               0%|          | 1820/1500000 [1:31:33<1077:52:33,  2.59s/it]{'loss': 1.088, 'grad_norm': 2.2293126583099365, 'learning_rate': 3.6340000000000004e-07, 'epoch': 1820.0}
  0%|          | 1821/1500000 [1:31:36<1068:14:15,  2.57s/it]                                                               0%|          | 1821/1500000 [1:31:36<1068:14:15,  2.57s/it]{'loss': 1.0882, 'grad_norm': 6.2275614738464355, 'learning_rate': 3.636e-07, 'epoch': 1821.0}
  0%|          | 1822/1500000 [1:31:39<1097:29:50,  2.64s/it]                                                               0%|          | 1822/1500000 [1:31:39<1097:29:50,  2.64s/it]{'loss': 1.0927, 'grad_norm': 1.6405001878738403, 'learning_rate': 3.6379999999999996e-07, 'epoch': 1822.0}
  0%|          | 1823/1500000 [1:31:41<1080:54:43,  2.60s/it]                                                               0%|          | 1823/1500000 [1:31:41<1080:54:43,  2.60s/it]{'loss': 1.0921, 'grad_norm': 4.835659503936768, 'learning_rate': 3.64e-07, 'epoch': 1823.0}
  0%|          | 1824/1500000 [1:31:44<1072:01:47,  2.58s/it]                                                               0%|          | 1824/1500000 [1:31:44<1072:01:47,  2.58s/it]{'loss': 1.0802, 'grad_norm': 2.8055944442749023, 'learning_rate': 3.642e-07, 'epoch': 1824.0}
  0%|          | 1825/1500000 [1:31:46<1076:06:02,  2.59s/it]                                                               0%|          | 1825/1500000 [1:31:46<1076:06:02,  2.59s/it]{'loss': 1.0834, 'grad_norm': 2.0784053802490234, 'learning_rate': 3.644e-07, 'epoch': 1825.0}
  0%|          | 1826/1500000 [1:31:49<1110:56:55,  2.67s/it]                                                               0%|          | 1826/1500000 [1:31:49<1110:56:55,  2.67s/it]{'loss': 1.0898, 'grad_norm': 1.4334038496017456, 'learning_rate': 3.646e-07, 'epoch': 1826.0}
  0%|          | 1827/1500000 [1:31:52<1089:39:21,  2.62s/it]                                                               0%|          | 1827/1500000 [1:31:52<1089:39:21,  2.62s/it]{'loss': 1.0748, 'grad_norm': 2.04054856300354, 'learning_rate': 3.6480000000000004e-07, 'epoch': 1827.0}
  0%|          | 1828/1500000 [1:31:54<1083:03:25,  2.60s/it]                                                               0%|          | 1828/1500000 [1:31:54<1083:03:25,  2.60s/it]{'loss': 1.0884, 'grad_norm': 1.3307286500930786, 'learning_rate': 3.65e-07, 'epoch': 1828.0}
  0%|          | 1829/1500000 [1:31:57<1083:16:23,  2.60s/it]                                                               0%|          | 1829/1500000 [1:31:57<1083:16:23,  2.60s/it]{'loss': 1.0888, 'grad_norm': 1.5207339525222778, 'learning_rate': 3.652e-07, 'epoch': 1829.0}
  0%|          | 1830/1500000 [1:31:59<1069:21:53,  2.57s/it]                                                               0%|          | 1830/1500000 [1:31:59<1069:21:53,  2.57s/it]{'loss': 1.0725, 'grad_norm': 1.6059523820877075, 'learning_rate': 3.6540000000000003e-07, 'epoch': 1830.0}
  0%|          | 1831/1500000 [1:32:02<1067:14:42,  2.56s/it]                                                               0%|          | 1831/1500000 [1:32:02<1067:14:42,  2.56s/it]{'loss': 1.0858, 'grad_norm': 3.661787986755371, 'learning_rate': 3.656e-07, 'epoch': 1831.0}
  0%|          | 1832/1500000 [1:32:04<1063:17:21,  2.56s/it]                                                               0%|          | 1832/1500000 [1:32:04<1063:17:21,  2.56s/it]{'loss': 1.0809, 'grad_norm': 1.3506802320480347, 'learning_rate': 3.658e-07, 'epoch': 1832.0}
  0%|          | 1833/1500000 [1:32:07<1067:54:51,  2.57s/it]                                                               0%|          | 1833/1500000 [1:32:07<1067:54:51,  2.57s/it]{'loss': 1.082, 'grad_norm': 5.469146728515625, 'learning_rate': 3.66e-07, 'epoch': 1833.0}
  0%|          | 1834/1500000 [1:32:09<1063:36:27,  2.56s/it]                                                               0%|          | 1834/1500000 [1:32:09<1063:36:27,  2.56s/it]{'loss': 1.0834, 'grad_norm': 1.2720454931259155, 'learning_rate': 3.662e-07, 'epoch': 1834.0}
  0%|          | 1835/1500000 [1:32:12<1064:55:17,  2.56s/it]                                                               0%|          | 1835/1500000 [1:32:12<1064:55:17,  2.56s/it]{'loss': 1.0812, 'grad_norm': 8.790504455566406, 'learning_rate': 3.664e-07, 'epoch': 1835.0}
  0%|          | 1836/1500000 [1:32:15<1073:53:47,  2.58s/it]                                                               0%|          | 1836/1500000 [1:32:15<1073:53:47,  2.58s/it]{'loss': 1.0747, 'grad_norm': 3.877979278564453, 'learning_rate': 3.666e-07, 'epoch': 1836.0}
  0%|          | 1837/1500000 [1:32:17<1103:05:57,  2.65s/it]                                                               0%|          | 1837/1500000 [1:32:17<1103:05:57,  2.65s/it]{'loss': 1.0682, 'grad_norm': 2.033482551574707, 'learning_rate': 3.6680000000000003e-07, 'epoch': 1837.0}
  0%|          | 1838/1500000 [1:32:20<1123:07:40,  2.70s/it]                                                               0%|          | 1838/1500000 [1:32:20<1123:07:40,  2.70s/it]{'loss': 1.084, 'grad_norm': 1.2085113525390625, 'learning_rate': 3.6700000000000004e-07, 'epoch': 1838.0}
  0%|          | 1839/1500000 [1:32:23<1103:52:25,  2.65s/it]                                                               0%|          | 1839/1500000 [1:32:23<1103:52:25,  2.65s/it]{'loss': 1.0728, 'grad_norm': 1.1712684631347656, 'learning_rate': 3.672e-07, 'epoch': 1839.0}
  0%|          | 1840/1500000 [1:32:25<1093:13:41,  2.63s/it]                                                               0%|          | 1840/1500000 [1:32:25<1093:13:41,  2.63s/it]{'loss': 1.0749, 'grad_norm': 1.4486749172210693, 'learning_rate': 3.6739999999999997e-07, 'epoch': 1840.0}
  0%|          | 1841/1500000 [1:32:28<1079:45:19,  2.59s/it]                                                               0%|          | 1841/1500000 [1:32:28<1079:45:19,  2.59s/it]{'loss': 1.069, 'grad_norm': 1.2576183080673218, 'learning_rate': 3.676e-07, 'epoch': 1841.0}
  0%|          | 1842/1500000 [1:32:30<1008:22:16,  2.42s/it]                                                               0%|          | 1842/1500000 [1:32:30<1008:22:16,  2.42s/it]{'loss': 1.077, 'grad_norm': 2.5055766105651855, 'learning_rate': 3.678e-07, 'epoch': 1842.0}
  0%|          | 1843/1500000 [1:32:32<968:22:28,  2.33s/it]                                                               0%|          | 1843/1500000 [1:32:32<968:22:28,  2.33s/it]{'loss': 1.0655, 'grad_norm': 1.3743407726287842, 'learning_rate': 3.68e-07, 'epoch': 1843.0}
  0%|          | 1844/1500000 [1:32:34<942:23:26,  2.26s/it]                                                              0%|          | 1844/1500000 [1:32:34<942:23:26,  2.26s/it]{'loss': 1.0623, 'grad_norm': 2.4878623485565186, 'learning_rate': 3.6820000000000003e-07, 'epoch': 1844.0}
  0%|          | 1845/1500000 [1:32:36<928:18:41,  2.23s/it]                                                              0%|          | 1845/1500000 [1:32:36<928:18:41,  2.23s/it]{'loss': 1.071, 'grad_norm': 2.4104552268981934, 'learning_rate': 3.684e-07, 'epoch': 1845.0}
  0%|          | 1846/1500000 [1:32:38<914:21:25,  2.20s/it]                                                              0%|          | 1846/1500000 [1:32:38<914:21:25,  2.20s/it]{'loss': 1.0683, 'grad_norm': 1.1857038736343384, 'learning_rate': 3.686e-07, 'epoch': 1846.0}
  0%|          | 1847/1500000 [1:32:40<874:00:05,  2.10s/it]                                                              0%|          | 1847/1500000 [1:32:40<874:00:05,  2.10s/it]{'loss': 1.0615, 'grad_norm': 2.2634403705596924, 'learning_rate': 3.688e-07, 'epoch': 1847.0}
  0%|          | 1848/1500000 [1:32:42<878:18:05,  2.11s/it]                                                              0%|          | 1848/1500000 [1:32:42<878:18:05,  2.11s/it]{'loss': 1.0643, 'grad_norm': 1.3645038604736328, 'learning_rate': 3.6900000000000004e-07, 'epoch': 1848.0}
  0%|          | 1849/1500000 [1:32:44<851:18:00,  2.05s/it]                                                              0%|          | 1849/1500000 [1:32:44<851:18:00,  2.05s/it]{'loss': 1.0715, 'grad_norm': 4.509624004364014, 'learning_rate': 3.692e-07, 'epoch': 1849.0}
  0%|          | 1850/1500000 [1:32:46<827:29:15,  1.99s/it]                                                              0%|          | 1850/1500000 [1:32:46<827:29:15,  1.99s/it]{'loss': 1.058, 'grad_norm': 7.785789966583252, 'learning_rate': 3.694e-07, 'epoch': 1850.0}
  0%|          | 1851/1500000 [1:32:48<811:04:30,  1.95s/it]                                                              0%|          | 1851/1500000 [1:32:48<811:04:30,  1.95s/it]{'loss': 1.0642, 'grad_norm': 1.2905511856079102, 'learning_rate': 3.696e-07, 'epoch': 1851.0}
  0%|          | 1852/1500000 [1:32:50<803:04:09,  1.93s/it]                                                              0%|          | 1852/1500000 [1:32:50<803:04:09,  1.93s/it]{'loss': 1.0664, 'grad_norm': 3.605567455291748, 'learning_rate': 3.698e-07, 'epoch': 1852.0}
  0%|          | 1853/1500000 [1:32:52<795:51:44,  1.91s/it]                                                              0%|          | 1853/1500000 [1:32:52<795:51:44,  1.91s/it]{'loss': 1.0525, 'grad_norm': 3.9171998500823975, 'learning_rate': 3.7e-07, 'epoch': 1853.0}
  0%|          | 1854/1500000 [1:32:54<835:47:57,  2.01s/it]                                                              0%|          | 1854/1500000 [1:32:54<835:47:57,  2.01s/it]{'loss': 1.0672, 'grad_norm': 3.6539876461029053, 'learning_rate': 3.702e-07, 'epoch': 1854.0}
  0%|          | 1855/1500000 [1:32:56<860:23:10,  2.07s/it]                                                              0%|          | 1855/1500000 [1:32:56<860:23:10,  2.07s/it]{'loss': 1.0504, 'grad_norm': 1.628844976425171, 'learning_rate': 3.7040000000000003e-07, 'epoch': 1855.0}
  0%|          | 1856/1500000 [1:32:58<879:43:09,  2.11s/it]                                                              0%|          | 1856/1500000 [1:32:58<879:43:09,  2.11s/it]{'loss': 1.0592, 'grad_norm': 1.1694111824035645, 'learning_rate': 3.706e-07, 'epoch': 1856.0}
  0%|          | 1857/1500000 [1:33:00<864:00:04,  2.08s/it]                                                              0%|          | 1857/1500000 [1:33:00<864:00:04,  2.08s/it]{'loss': 1.0643, 'grad_norm': 6.458829402923584, 'learning_rate': 3.708e-07, 'epoch': 1857.0}
  0%|          | 1858/1500000 [1:33:02<844:24:43,  2.03s/it]                                                              0%|          | 1858/1500000 [1:33:02<844:24:43,  2.03s/it]{'loss': 1.0534, 'grad_norm': 1.6676795482635498, 'learning_rate': 3.7100000000000003e-07, 'epoch': 1858.0}
  0%|          | 1859/1500000 [1:33:04<853:48:57,  2.05s/it]                                                              0%|          | 1859/1500000 [1:33:04<853:48:57,  2.05s/it]{'loss': 1.0645, 'grad_norm': 1.5999970436096191, 'learning_rate': 3.712e-07, 'epoch': 1859.0}
  0%|          | 1860/1500000 [1:33:06<830:56:16,  2.00s/it]                                                              0%|          | 1860/1500000 [1:33:06<830:56:16,  2.00s/it]{'loss': 1.0503, 'grad_norm': 2.5198495388031006, 'learning_rate': 3.714e-07, 'epoch': 1860.0}
  0%|          | 1861/1500000 [1:33:08<816:19:53,  1.96s/it]                                                              0%|          | 1861/1500000 [1:33:08<816:19:53,  1.96s/it]{'loss': 1.0609, 'grad_norm': 2.970276355743408, 'learning_rate': 3.716e-07, 'epoch': 1861.0}
  0%|          | 1862/1500000 [1:33:10<832:55:23,  2.00s/it]                                                              0%|          | 1862/1500000 [1:33:10<832:55:23,  2.00s/it]{'loss': 1.0525, 'grad_norm': 1.2820932865142822, 'learning_rate': 3.718e-07, 'epoch': 1862.0}
  0%|          | 1863/1500000 [1:33:12<819:55:55,  1.97s/it]                                                              0%|          | 1863/1500000 [1:33:12<819:55:55,  1.97s/it]{'loss': 1.0685, 'grad_norm': 1.8016626834869385, 'learning_rate': 3.72e-07, 'epoch': 1863.0}
  0%|          | 1864/1500000 [1:33:14<804:05:12,  1.93s/it]                                                              0%|          | 1864/1500000 [1:33:14<804:05:12,  1.93s/it]{'loss': 1.0435, 'grad_norm': 1.4667295217514038, 'learning_rate': 3.722e-07, 'epoch': 1864.0}
  0%|          | 1865/1500000 [1:33:16<789:44:49,  1.90s/it]                                                              0%|          | 1865/1500000 [1:33:16<789:44:49,  1.90s/it]{'loss': 1.0552, 'grad_norm': 3.2096028327941895, 'learning_rate': 3.724e-07, 'epoch': 1865.0}
  0%|          | 1866/1500000 [1:33:18<783:24:57,  1.88s/it]                                                              0%|          | 1866/1500000 [1:33:18<783:24:57,  1.88s/it]{'loss': 1.0529, 'grad_norm': 1.4250282049179077, 'learning_rate': 3.7260000000000004e-07, 'epoch': 1866.0}
  0%|          | 1867/1500000 [1:33:20<792:26:53,  1.90s/it]                                                              0%|          | 1867/1500000 [1:33:20<792:26:53,  1.90s/it]{'loss': 1.0579, 'grad_norm': 9.092828750610352, 'learning_rate': 3.7280000000000006e-07, 'epoch': 1867.0}
  0%|          | 1868/1500000 [1:33:22<788:26:49,  1.89s/it]                                                              0%|          | 1868/1500000 [1:33:22<788:26:49,  1.89s/it]{'loss': 1.0561, 'grad_norm': 1.8917639255523682, 'learning_rate': 3.7299999999999997e-07, 'epoch': 1868.0}
  0%|          | 1869/1500000 [1:33:23<781:52:09,  1.88s/it]                                                              0%|          | 1869/1500000 [1:33:23<781:52:09,  1.88s/it]{'loss': 1.054, 'grad_norm': 2.1757912635803223, 'learning_rate': 3.732e-07, 'epoch': 1869.0}
  0%|          | 1870/1500000 [1:33:25<780:23:52,  1.88s/it]                                                              0%|          | 1870/1500000 [1:33:25<780:23:52,  1.88s/it]{'loss': 1.0461, 'grad_norm': 1.4238544702529907, 'learning_rate': 3.734e-07, 'epoch': 1870.0}
  0%|          | 1871/1500000 [1:33:27<778:32:49,  1.87s/it]                                                              0%|          | 1871/1500000 [1:33:27<778:32:49,  1.87s/it]{'loss': 1.0443, 'grad_norm': 2.1964120864868164, 'learning_rate': 3.736e-07, 'epoch': 1871.0}
  0%|          | 1872/1500000 [1:33:29<778:53:36,  1.87s/it]                                                              0%|          | 1872/1500000 [1:33:29<778:53:36,  1.87s/it]{'loss': 1.035, 'grad_norm': 1.3786770105361938, 'learning_rate': 3.738e-07, 'epoch': 1872.0}
  0%|          | 1873/1500000 [1:33:31<777:13:17,  1.87s/it]                                                              0%|          | 1873/1500000 [1:33:31<777:13:17,  1.87s/it]{'loss': 1.0529, 'grad_norm': 1.7758744955062866, 'learning_rate': 3.74e-07, 'epoch': 1873.0}
  0%|          | 1874/1500000 [1:33:33<775:44:06,  1.86s/it]                                                              0%|          | 1874/1500000 [1:33:33<775:44:06,  1.86s/it]{'loss': 1.0376, 'grad_norm': 1.5090283155441284, 'learning_rate': 3.742e-07, 'epoch': 1874.0}
  0%|          | 1875/1500000 [1:33:35<773:48:01,  1.86s/it]                                                              0%|          | 1875/1500000 [1:33:35<773:48:01,  1.86s/it]{'loss': 1.042, 'grad_norm': 6.033825397491455, 'learning_rate': 3.744e-07, 'epoch': 1875.0}
  0%|          | 1876/1500000 [1:33:36<771:16:29,  1.85s/it]                                                              0%|          | 1876/1500000 [1:33:36<771:16:29,  1.85s/it]{'loss': 1.0411, 'grad_norm': 1.5398105382919312, 'learning_rate': 3.7460000000000003e-07, 'epoch': 1876.0}
  0%|          | 1877/1500000 [1:33:38<771:18:10,  1.85s/it]                                                              0%|          | 1877/1500000 [1:33:38<771:18:10,  1.85s/it]{'loss': 1.0351, 'grad_norm': 2.896078586578369, 'learning_rate': 3.7480000000000005e-07, 'epoch': 1877.0}
  0%|          | 1878/1500000 [1:33:40<812:11:18,  1.95s/it]                                                              0%|          | 1878/1500000 [1:33:40<812:11:18,  1.95s/it]{'loss': 1.0424, 'grad_norm': 2.9771029949188232, 'learning_rate': 3.75e-07, 'epoch': 1878.0}
  0%|          | 1879/1500000 [1:33:42<801:58:29,  1.93s/it]                                                              0%|          | 1879/1500000 [1:33:42<801:58:29,  1.93s/it]{'loss': 1.0441, 'grad_norm': 4.1651291847229, 'learning_rate': 3.7519999999999997e-07, 'epoch': 1879.0}
  0%|          | 1880/1500000 [1:33:44<825:19:36,  1.98s/it]                                                              0%|          | 1880/1500000 [1:33:44<825:19:36,  1.98s/it]{'loss': 1.0441, 'grad_norm': 4.299952507019043, 'learning_rate': 3.754e-07, 'epoch': 1880.0}
  0%|          | 1881/1500000 [1:33:46<816:24:49,  1.96s/it]                                                              0%|          | 1881/1500000 [1:33:46<816:24:49,  1.96s/it]{'loss': 1.0416, 'grad_norm': 4.157835006713867, 'learning_rate': 3.756e-07, 'epoch': 1881.0}
  0%|          | 1882/1500000 [1:33:48<817:23:43,  1.96s/it]                                                              0%|          | 1882/1500000 [1:33:48<817:23:43,  1.96s/it]{'loss': 1.0421, 'grad_norm': 2.69199800491333, 'learning_rate': 3.758e-07, 'epoch': 1882.0}
  0%|          | 1883/1500000 [1:33:50<805:45:48,  1.94s/it]                                                              0%|          | 1883/1500000 [1:33:50<805:45:48,  1.94s/it]{'loss': 1.0364, 'grad_norm': 2.068002223968506, 'learning_rate': 3.7600000000000003e-07, 'epoch': 1883.0}
  0%|          | 1884/1500000 [1:33:52<796:50:53,  1.91s/it]                                                              0%|          | 1884/1500000 [1:33:52<796:50:53,  1.91s/it]{'loss': 1.0345, 'grad_norm': 2.099421739578247, 'learning_rate': 3.7620000000000005e-07, 'epoch': 1884.0}
  0%|          | 1885/1500000 [1:33:54<796:16:12,  1.91s/it]                                                              0%|          | 1885/1500000 [1:33:54<796:16:12,  1.91s/it]{'loss': 1.0312, 'grad_norm': 1.6459306478500366, 'learning_rate': 3.764e-07, 'epoch': 1885.0}
  0%|          | 1886/1500000 [1:33:56<788:53:59,  1.90s/it]                                                              0%|          | 1886/1500000 [1:33:56<788:53:59,  1.90s/it]{'loss': 1.0355, 'grad_norm': 2.0890233516693115, 'learning_rate': 3.766e-07, 'epoch': 1886.0}
  0%|          | 1887/1500000 [1:33:58<780:13:33,  1.87s/it]                                                              0%|          | 1887/1500000 [1:33:58<780:13:33,  1.87s/it]{'loss': 1.0374, 'grad_norm': 1.3722141981124878, 'learning_rate': 3.768e-07, 'epoch': 1887.0}
  0%|          | 1888/1500000 [1:34:00<793:05:33,  1.91s/it]                                                              0%|          | 1888/1500000 [1:34:00<793:05:33,  1.91s/it]{'loss': 1.0378, 'grad_norm': 1.9256651401519775, 'learning_rate': 3.77e-07, 'epoch': 1888.0}
  0%|          | 1889/1500000 [1:34:01<792:36:36,  1.90s/it]                                                              0%|          | 1889/1500000 [1:34:01<792:36:36,  1.90s/it]{'loss': 1.0337, 'grad_norm': 1.3597816228866577, 'learning_rate': 3.772e-07, 'epoch': 1889.0}
  0%|          | 1890/1500000 [1:34:03<783:19:35,  1.88s/it]                                                              0%|          | 1890/1500000 [1:34:03<783:19:35,  1.88s/it]{'loss': 1.0468, 'grad_norm': 1.3968867063522339, 'learning_rate': 3.774e-07, 'epoch': 1890.0}
  0%|          | 1891/1500000 [1:34:05<778:02:22,  1.87s/it]                                                              0%|          | 1891/1500000 [1:34:05<778:02:22,  1.87s/it]{'loss': 1.0345, 'grad_norm': 2.0131850242614746, 'learning_rate': 3.776e-07, 'epoch': 1891.0}
  0%|          | 1892/1500000 [1:34:07<778:32:13,  1.87s/it]                                                              0%|          | 1892/1500000 [1:34:07<778:32:13,  1.87s/it]{'loss': 1.0301, 'grad_norm': 6.939270973205566, 'learning_rate': 3.778e-07, 'epoch': 1892.0}
  0%|          | 1893/1500000 [1:34:09<813:39:36,  1.96s/it]                                                              0%|          | 1893/1500000 [1:34:09<813:39:36,  1.96s/it]{'loss': 1.0248, 'grad_norm': 3.4089696407318115, 'learning_rate': 3.78e-07, 'epoch': 1893.0}
  0%|          | 1894/1500000 [1:34:11<834:11:22,  2.00s/it]                                                              0%|          | 1894/1500000 [1:34:11<834:11:22,  2.00s/it]{'loss': 1.0268, 'grad_norm': 1.4048559665679932, 'learning_rate': 3.7820000000000004e-07, 'epoch': 1894.0}
  0%|          | 1895/1500000 [1:34:13<836:36:23,  2.01s/it]                                                              0%|          | 1895/1500000 [1:34:13<836:36:23,  2.01s/it]{'loss': 1.0298, 'grad_norm': 1.3093678951263428, 'learning_rate': 3.7840000000000005e-07, 'epoch': 1895.0}
  0%|          | 1896/1500000 [1:34:15<822:58:52,  1.98s/it]                                                              0%|          | 1896/1500000 [1:34:15<822:58:52,  1.98s/it]{'loss': 1.025, 'grad_norm': 2.019089698791504, 'learning_rate': 3.7859999999999996e-07, 'epoch': 1896.0}
  0%|          | 1897/1500000 [1:34:17<808:22:19,  1.94s/it]                                                              0%|          | 1897/1500000 [1:34:17<808:22:19,  1.94s/it]{'loss': 1.019, 'grad_norm': 1.7715556621551514, 'learning_rate': 3.788e-07, 'epoch': 1897.0}
  0%|          | 1898/1500000 [1:34:19<792:59:05,  1.91s/it]                                                              0%|          | 1898/1500000 [1:34:19<792:59:05,  1.91s/it]{'loss': 1.0235, 'grad_norm': 1.3812161684036255, 'learning_rate': 3.79e-07, 'epoch': 1898.0}
  0%|          | 1899/1500000 [1:34:21<790:10:39,  1.90s/it]                                                              0%|          | 1899/1500000 [1:34:21<790:10:39,  1.90s/it]{'loss': 1.0287, 'grad_norm': 7.480818748474121, 'learning_rate': 3.792e-07, 'epoch': 1899.0}
  0%|          | 1900/1500000 [1:34:23<783:50:03,  1.88s/it]                                                              0%|          | 1900/1500000 [1:34:23<783:50:03,  1.88s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 1.0239, 'grad_norm': 2.9102423191070557, 'learning_rate': 3.794e-07, 'epoch': 1900.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.06it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.24s/it][A
 57%|█████▋    | 4/7 [00:05<00:04,  1.34s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.30s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.46s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.09s/it][A                                                            
                                             [A  0%|          | 1900/1500000 [1:34:50<783:50:03,  1.88s/it]
100%|██████████| 7/7 [00:09<00:00,  1.09s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1700] due to args.save_total_limit
{'eval_loss': 3.348233938217163, 'eval_wer': 1.0067645035542307, 'eval_cer': 0.8273448208341492, 'eval_runtime': 14.7175, 'eval_samples_per_second': 66.791, 'eval_steps_per_second': 0.476, 'epoch': 1900.0}
  0%|          | 1901/1500000 [1:35:09<6298:23:49, 15.14s/it]                                                               0%|          | 1901/1500000 [1:35:09<6298:23:49, 15.14s/it]{'loss': 1.0149, 'grad_norm': 1.4091012477874756, 'learning_rate': 3.7960000000000004e-07, 'epoch': 1901.0}
  0%|          | 1902/1500000 [1:35:11<4731:25:30, 11.37s/it]                                                               0%|          | 1902/1500000 [1:35:11<4731:25:30, 11.37s/it]{'loss': 1.0153, 'grad_norm': 1.524715781211853, 'learning_rate': 3.798e-07, 'epoch': 1902.0}
  0%|          | 1903/1500000 [1:35:14<3638:03:46,  8.74s/it]                                                               0%|          | 1903/1500000 [1:35:14<3638:03:46,  8.74s/it]{'loss': 1.0182, 'grad_norm': 1.9062930345535278, 'learning_rate': 3.8e-07, 'epoch': 1903.0}
  0%|          | 1904/1500000 [1:35:16<2869:02:01,  6.89s/it]                                                               0%|          | 1904/1500000 [1:35:16<2869:02:01,  6.89s/it]{'loss': 1.0204, 'grad_norm': 1.919910192489624, 'learning_rate': 3.8020000000000003e-07, 'epoch': 1904.0}
  0%|          | 1905/1500000 [1:35:19<2349:25:20,  5.65s/it]                                                               0%|          | 1905/1500000 [1:35:19<2349:25:20,  5.65s/it]{'loss': 1.0293, 'grad_norm': 8.765739440917969, 'learning_rate': 3.8040000000000004e-07, 'epoch': 1905.0}
  0%|          | 1906/1500000 [1:35:22<1943:12:03,  4.67s/it]                                                               0%|          | 1906/1500000 [1:35:22<1943:12:03,  4.67s/it]{'loss': 1.0186, 'grad_norm': 9.86196231842041, 'learning_rate': 3.806e-07, 'epoch': 1906.0}
  0%|          | 1907/1500000 [1:35:24<1679:54:19,  4.04s/it]                                                               0%|          | 1907/1500000 [1:35:24<1679:54:19,  4.04s/it]{'loss': 1.0258, 'grad_norm': 2.627725839614868, 'learning_rate': 3.8079999999999997e-07, 'epoch': 1907.0}
  0%|          | 1908/1500000 [1:35:27<1509:57:57,  3.63s/it]                                                               0%|          | 1908/1500000 [1:35:27<1509:57:57,  3.63s/it]{'loss': 1.0299, 'grad_norm': 22.16447639465332, 'learning_rate': 3.81e-07, 'epoch': 1908.0}
  0%|          | 1909/1500000 [1:35:29<1380:21:11,  3.32s/it]                                                               0%|          | 1909/1500000 [1:35:29<1380:21:11,  3.32s/it]{'loss': 1.0071, 'grad_norm': 2.109869956970215, 'learning_rate': 3.812e-07, 'epoch': 1909.0}
  0%|          | 1910/1500000 [1:35:32<1282:52:11,  3.08s/it]                                                               0%|          | 1910/1500000 [1:35:32<1282:52:11,  3.08s/it]{'loss': 1.025, 'grad_norm': 1.7827852964401245, 'learning_rate': 3.814e-07, 'epoch': 1910.0}
  0%|          | 1911/1500000 [1:35:35<1221:25:37,  2.94s/it]                                                               0%|          | 1911/1500000 [1:35:35<1221:25:37,  2.94s/it]{'loss': 1.0144, 'grad_norm': 1.4217936992645264, 'learning_rate': 3.8160000000000003e-07, 'epoch': 1911.0}
  0%|          | 1912/1500000 [1:35:37<1176:48:48,  2.83s/it]                                                               0%|          | 1912/1500000 [1:35:37<1176:48:48,  2.83s/it]{'loss': 1.0162, 'grad_norm': 3.7443063259124756, 'learning_rate': 3.8180000000000004e-07, 'epoch': 1912.0}
  0%|          | 1913/1500000 [1:35:40<1165:32:04,  2.80s/it]                                                               0%|          | 1913/1500000 [1:35:40<1165:32:04,  2.80s/it]{'loss': 1.0152, 'grad_norm': 1.6767948865890503, 'learning_rate': 3.82e-07, 'epoch': 1913.0}
  0%|          | 1914/1500000 [1:35:42<1140:47:53,  2.74s/it]                                                               0%|          | 1914/1500000 [1:35:42<1140:47:53,  2.74s/it]{'loss': 1.0204, 'grad_norm': 2.9476425647735596, 'learning_rate': 3.822e-07, 'epoch': 1914.0}
  0%|          | 1915/1500000 [1:35:45<1123:33:25,  2.70s/it]                                                               0%|          | 1915/1500000 [1:35:45<1123:33:25,  2.70s/it]{'loss': 1.0157, 'grad_norm': 3.863757610321045, 'learning_rate': 3.824e-07, 'epoch': 1915.0}
  0%|          | 1916/1500000 [1:35:48<1112:00:44,  2.67s/it]                                                               0%|          | 1916/1500000 [1:35:48<1112:00:44,  2.67s/it]{'loss': 1.009, 'grad_norm': 1.7599117755889893, 'learning_rate': 3.826e-07, 'epoch': 1916.0}
  0%|          | 1917/1500000 [1:35:51<1164:55:16,  2.80s/it]                                                               0%|          | 1917/1500000 [1:35:51<1164:55:16,  2.80s/it]{'loss': 1.0111, 'grad_norm': 5.437180519104004, 'learning_rate': 3.828e-07, 'epoch': 1917.0}
  0%|          | 1918/1500000 [1:35:54<1206:59:55,  2.90s/it]                                                               0%|          | 1918/1500000 [1:35:54<1206:59:55,  2.90s/it]{'loss': 1.0048, 'grad_norm': 2.2379703521728516, 'learning_rate': 3.8300000000000003e-07, 'epoch': 1918.0}
  0%|          | 1919/1500000 [1:35:56<1161:03:10,  2.79s/it]                                                               0%|          | 1919/1500000 [1:35:56<1161:03:10,  2.79s/it]{'loss': 1.0088, 'grad_norm': 1.7229124307632446, 'learning_rate': 3.832e-07, 'epoch': 1919.0}
  0%|          | 1920/1500000 [1:35:59<1166:04:02,  2.80s/it]                                                               0%|          | 1920/1500000 [1:35:59<1166:04:02,  2.80s/it]{'loss': 1.0091, 'grad_norm': 5.748979568481445, 'learning_rate': 3.834e-07, 'epoch': 1920.0}
  0%|          | 1921/1500000 [1:36:02<1175:01:07,  2.82s/it]                                                               0%|          | 1921/1500000 [1:36:02<1175:01:07,  2.82s/it]{'loss': 1.011, 'grad_norm': 2.0535030364990234, 'learning_rate': 3.836e-07, 'epoch': 1921.0}
  0%|          | 1922/1500000 [1:36:05<1173:22:49,  2.82s/it]                                                               0%|          | 1922/1500000 [1:36:05<1173:22:49,  2.82s/it]{'loss': 1.0141, 'grad_norm': 1.5258809328079224, 'learning_rate': 3.8380000000000004e-07, 'epoch': 1922.0}
  0%|          | 1923/1500000 [1:36:08<1162:22:40,  2.79s/it]                                                               0%|          | 1923/1500000 [1:36:08<1162:22:40,  2.79s/it]{'loss': 1.0098, 'grad_norm': 3.801924705505371, 'learning_rate': 3.8400000000000005e-07, 'epoch': 1923.0}
  0%|          | 1924/1500000 [1:36:10<1137:00:14,  2.73s/it]                                                               0%|          | 1924/1500000 [1:36:10<1137:00:14,  2.73s/it]{'loss': 1.0084, 'grad_norm': 2.2576732635498047, 'learning_rate': 3.8419999999999996e-07, 'epoch': 1924.0}
  0%|          | 1925/1500000 [1:36:13<1104:35:30,  2.65s/it]                                                               0%|          | 1925/1500000 [1:36:13<1104:35:30,  2.65s/it]{'loss': 1.0054, 'grad_norm': 3.0579185485839844, 'learning_rate': 3.844e-07, 'epoch': 1925.0}
  0%|          | 1926/1500000 [1:36:15<1084:36:33,  2.61s/it]                                                               0%|          | 1926/1500000 [1:36:15<1084:36:33,  2.61s/it]{'loss': 1.0181, 'grad_norm': 7.157055377960205, 'learning_rate': 3.846e-07, 'epoch': 1926.0}
  0%|          | 1927/1500000 [1:36:18<1076:25:24,  2.59s/it]                                                               0%|          | 1927/1500000 [1:36:18<1076:25:24,  2.59s/it]{'loss': 1.0061, 'grad_norm': 1.624178409576416, 'learning_rate': 3.848e-07, 'epoch': 1927.0}
  0%|          | 1928/1500000 [1:36:20<1073:36:13,  2.58s/it]                                                               0%|          | 1928/1500000 [1:36:20<1073:36:13,  2.58s/it]{'loss': 1.0034, 'grad_norm': 2.5677733421325684, 'learning_rate': 3.85e-07, 'epoch': 1928.0}
  0%|          | 1929/1500000 [1:36:23<1071:53:21,  2.58s/it]                                                               0%|          | 1929/1500000 [1:36:23<1071:53:21,  2.58s/it]{'loss': 0.9998, 'grad_norm': 7.289623737335205, 'learning_rate': 3.8520000000000003e-07, 'epoch': 1929.0}
  0%|          | 1930/1500000 [1:36:25<1057:06:02,  2.54s/it]                                                               0%|          | 1930/1500000 [1:36:25<1057:06:02,  2.54s/it]{'loss': 1.0028, 'grad_norm': 6.197534561157227, 'learning_rate': 3.854e-07, 'epoch': 1930.0}
  0%|          | 1931/1500000 [1:36:28<1092:40:39,  2.63s/it]                                                               0%|          | 1931/1500000 [1:36:28<1092:40:39,  2.63s/it]{'loss': 0.9945, 'grad_norm': 1.9179856777191162, 'learning_rate': 3.856e-07, 'epoch': 1931.0}
  0%|          | 1932/1500000 [1:36:31<1095:23:00,  2.63s/it]                                                               0%|          | 1932/1500000 [1:36:31<1095:23:00,  2.63s/it]{'loss': 1.001, 'grad_norm': 1.7062691450119019, 'learning_rate': 3.8580000000000003e-07, 'epoch': 1932.0}
  0%|          | 1933/1500000 [1:36:33<1095:29:27,  2.63s/it]                                                               0%|          | 1933/1500000 [1:36:33<1095:29:27,  2.63s/it]{'loss': 1.0045, 'grad_norm': 7.229865550994873, 'learning_rate': 3.8600000000000004e-07, 'epoch': 1933.0}
  0%|          | 1934/1500000 [1:36:36<1097:26:52,  2.64s/it]                                                               0%|          | 1934/1500000 [1:36:36<1097:26:52,  2.64s/it]{'loss': 1.0054, 'grad_norm': 1.4464648962020874, 'learning_rate': 3.862e-07, 'epoch': 1934.0}
  0%|          | 1935/1500000 [1:36:39<1082:25:07,  2.60s/it]                                                               0%|          | 1935/1500000 [1:36:39<1082:25:07,  2.60s/it]{'loss': 0.9994, 'grad_norm': 1.5714243650436401, 'learning_rate': 3.864e-07, 'epoch': 1935.0}
  0%|          | 1936/1500000 [1:36:41<1080:08:15,  2.60s/it]                                                               0%|          | 1936/1500000 [1:36:41<1080:08:15,  2.60s/it]{'loss': 1.0004, 'grad_norm': 11.884821891784668, 'learning_rate': 3.866e-07, 'epoch': 1936.0}
  0%|          | 1937/1500000 [1:36:44<1070:16:46,  2.57s/it]                                                               0%|          | 1937/1500000 [1:36:44<1070:16:46,  2.57s/it]{'loss': 0.9995, 'grad_norm': 1.5678681135177612, 'learning_rate': 3.868e-07, 'epoch': 1937.0}
  0%|          | 1938/1500000 [1:36:46<1067:06:32,  2.56s/it]                                                               0%|          | 1938/1500000 [1:36:46<1067:06:32,  2.56s/it]{'loss': 0.9993, 'grad_norm': 5.862920761108398, 'learning_rate': 3.87e-07, 'epoch': 1938.0}
  0%|          | 1939/1500000 [1:36:49<1097:29:13,  2.64s/it]                                                               0%|          | 1939/1500000 [1:36:49<1097:29:13,  2.64s/it]{'loss': 0.9924, 'grad_norm': 1.4941705465316772, 'learning_rate': 3.872e-07, 'epoch': 1939.0}
  0%|          | 1940/1500000 [1:36:52<1088:55:00,  2.62s/it]                                                               0%|          | 1940/1500000 [1:36:52<1088:55:00,  2.62s/it]{'loss': 1.0023, 'grad_norm': 1.2138015031814575, 'learning_rate': 3.8740000000000004e-07, 'epoch': 1940.0}
  0%|          | 1941/1500000 [1:36:54<1078:12:28,  2.59s/it]                                                               0%|          | 1941/1500000 [1:36:54<1078:12:28,  2.59s/it]{'loss': 0.9955, 'grad_norm': 6.139458179473877, 'learning_rate': 3.876e-07, 'epoch': 1941.0}
  0%|          | 1942/1500000 [1:36:57<1075:34:48,  2.58s/it]                                                               0%|          | 1942/1500000 [1:36:57<1075:34:48,  2.58s/it]{'loss': 0.9842, 'grad_norm': 1.6943340301513672, 'learning_rate': 3.878e-07, 'epoch': 1942.0}
  0%|          | 1943/1500000 [1:36:59<1073:17:50,  2.58s/it]                                                               0%|          | 1943/1500000 [1:36:59<1073:17:50,  2.58s/it]{'loss': 0.9975, 'grad_norm': 1.7258809804916382, 'learning_rate': 3.88e-07, 'epoch': 1943.0}
  0%|          | 1944/1500000 [1:37:02<1053:29:37,  2.53s/it]                                                               0%|          | 1944/1500000 [1:37:02<1053:29:37,  2.53s/it]{'loss': 0.9936, 'grad_norm': 1.3519753217697144, 'learning_rate': 3.882e-07, 'epoch': 1944.0}
  0%|          | 1945/1500000 [1:37:04<1052:59:51,  2.53s/it]                                                               0%|          | 1945/1500000 [1:37:04<1052:59:51,  2.53s/it]{'loss': 0.9919, 'grad_norm': 1.3714637756347656, 'learning_rate': 3.884e-07, 'epoch': 1945.0}
  0%|          | 1946/1500000 [1:37:07<1045:12:58,  2.51s/it]                                                               0%|          | 1946/1500000 [1:37:07<1045:12:58,  2.51s/it]{'loss': 0.9924, 'grad_norm': 2.10038685798645, 'learning_rate': 3.886e-07, 'epoch': 1946.0}
  0%|          | 1947/1500000 [1:37:10<1088:52:48,  2.62s/it]                                                               0%|          | 1947/1500000 [1:37:10<1088:52:48,  2.62s/it]{'loss': 0.9837, 'grad_norm': 1.3607633113861084, 'learning_rate': 3.888e-07, 'epoch': 1947.0}
  0%|          | 1948/1500000 [1:37:12<1089:35:11,  2.62s/it]                                                               0%|          | 1948/1500000 [1:37:12<1089:35:11,  2.62s/it]{'loss': 0.9836, 'grad_norm': 1.6849805116653442, 'learning_rate': 3.89e-07, 'epoch': 1948.0}
  0%|          | 1949/1500000 [1:37:15<1081:40:57,  2.60s/it]                                                               0%|          | 1949/1500000 [1:37:15<1081:40:57,  2.60s/it]{'loss': 0.9795, 'grad_norm': 1.6698248386383057, 'learning_rate': 3.892e-07, 'epoch': 1949.0}
  0%|          | 1950/1500000 [1:37:17<1074:34:29,  2.58s/it]                                                               0%|          | 1950/1500000 [1:37:17<1074:34:29,  2.58s/it]{'loss': 0.9896, 'grad_norm': 1.8032368421554565, 'learning_rate': 3.8940000000000003e-07, 'epoch': 1950.0}
  0%|          | 1951/1500000 [1:37:20<1069:29:38,  2.57s/it]                                                               0%|          | 1951/1500000 [1:37:20<1069:29:38,  2.57s/it]{'loss': 0.9905, 'grad_norm': 6.504581451416016, 'learning_rate': 3.8960000000000005e-07, 'epoch': 1951.0}
  0%|          | 1952/1500000 [1:37:22<1069:07:53,  2.57s/it]                                                               0%|          | 1952/1500000 [1:37:22<1069:07:53,  2.57s/it]{'loss': 0.9864, 'grad_norm': 2.070748805999756, 'learning_rate': 3.898e-07, 'epoch': 1952.0}
  0%|          | 1953/1500000 [1:37:25<1059:22:12,  2.55s/it]                                                               0%|          | 1953/1500000 [1:37:25<1059:22:12,  2.55s/it]{'loss': 0.9928, 'grad_norm': 5.449564456939697, 'learning_rate': 3.8999999999999997e-07, 'epoch': 1953.0}
  0%|          | 1954/1500000 [1:37:28<1097:10:26,  2.64s/it]                                                               0%|          | 1954/1500000 [1:37:28<1097:10:26,  2.64s/it]{'loss': 0.98, 'grad_norm': 1.5584577322006226, 'learning_rate': 3.902e-07, 'epoch': 1954.0}
  0%|          | 1955/1500000 [1:37:30<1091:15:24,  2.62s/it]                                                               0%|          | 1955/1500000 [1:37:30<1091:15:24,  2.62s/it]{'loss': 0.979, 'grad_norm': 2.591323137283325, 'learning_rate': 3.904e-07, 'epoch': 1955.0}
  0%|          | 1956/1500000 [1:37:33<1086:12:29,  2.61s/it]                                                               0%|          | 1956/1500000 [1:37:33<1086:12:29,  2.61s/it]{'loss': 0.9853, 'grad_norm': 5.721585750579834, 'learning_rate': 3.906e-07, 'epoch': 1956.0}
  0%|          | 1957/1500000 [1:37:36<1110:57:13,  2.67s/it]                                                               0%|          | 1957/1500000 [1:37:36<1110:57:13,  2.67s/it]{'loss': 0.9786, 'grad_norm': 2.1151766777038574, 'learning_rate': 3.9080000000000003e-07, 'epoch': 1957.0}
  0%|          | 1958/1500000 [1:37:38<1093:27:47,  2.63s/it]                                                               0%|          | 1958/1500000 [1:37:38<1093:27:47,  2.63s/it]{'loss': 0.9789, 'grad_norm': 2.013092041015625, 'learning_rate': 3.91e-07, 'epoch': 1958.0}
  0%|          | 1959/1500000 [1:37:41<1094:02:01,  2.63s/it]                                                               0%|          | 1959/1500000 [1:37:41<1094:02:01,  2.63s/it]{'loss': 0.9815, 'grad_norm': 1.2383936643600464, 'learning_rate': 3.912e-07, 'epoch': 1959.0}
  0%|          | 1960/1500000 [1:37:43<1071:16:20,  2.57s/it]                                                               0%|          | 1960/1500000 [1:37:43<1071:16:20,  2.57s/it]{'loss': 0.9795, 'grad_norm': 1.7482961416244507, 'learning_rate': 3.914e-07, 'epoch': 1960.0}
  0%|          | 1961/1500000 [1:37:46<1066:42:54,  2.56s/it]                                                               0%|          | 1961/1500000 [1:37:46<1066:42:54,  2.56s/it]{'loss': 0.9803, 'grad_norm': 2.4102728366851807, 'learning_rate': 3.9160000000000004e-07, 'epoch': 1961.0}
  0%|          | 1962/1500000 [1:37:48<1071:20:36,  2.57s/it]                                                               0%|          | 1962/1500000 [1:37:49<1071:20:36,  2.57s/it]{'loss': 0.9751, 'grad_norm': 2.8385329246520996, 'learning_rate': 3.918e-07, 'epoch': 1962.0}
  0%|          | 1963/1500000 [1:37:51<1112:13:23,  2.67s/it]                                                               0%|          | 1963/1500000 [1:37:51<1112:13:23,  2.67s/it]{'loss': 0.9785, 'grad_norm': 2.1575136184692383, 'learning_rate': 3.92e-07, 'epoch': 1963.0}
  0%|          | 1964/1500000 [1:37:54<1148:06:20,  2.76s/it]                                                               0%|          | 1964/1500000 [1:37:54<1148:06:20,  2.76s/it]{'loss': 0.9851, 'grad_norm': 3.1471638679504395, 'learning_rate': 3.922e-07, 'epoch': 1964.0}
  0%|          | 1965/1500000 [1:37:57<1156:08:08,  2.78s/it]                                                               0%|          | 1965/1500000 [1:37:57<1156:08:08,  2.78s/it]{'loss': 0.958, 'grad_norm': 2.264690637588501, 'learning_rate': 3.924e-07, 'epoch': 1965.0}
  0%|          | 1966/1500000 [1:38:00<1135:02:12,  2.73s/it]                                                               0%|          | 1966/1500000 [1:38:00<1135:02:12,  2.73s/it]{'loss': 0.966, 'grad_norm': 12.371599197387695, 'learning_rate': 3.926e-07, 'epoch': 1966.0}
  0%|          | 1967/1500000 [1:38:02<1112:05:28,  2.67s/it]                                                               0%|          | 1967/1500000 [1:38:02<1112:05:28,  2.67s/it]{'loss': 0.9668, 'grad_norm': 1.2788374423980713, 'learning_rate': 3.928e-07, 'epoch': 1967.0}
  0%|          | 1968/1500000 [1:38:05<1102:19:20,  2.65s/it]                                                               0%|          | 1968/1500000 [1:38:05<1102:19:20,  2.65s/it]{'loss': 0.9686, 'grad_norm': 2.354177236557007, 'learning_rate': 3.9300000000000004e-07, 'epoch': 1968.0}
  0%|          | 1969/1500000 [1:38:08<1096:32:41,  2.64s/it]                                                               0%|          | 1969/1500000 [1:38:08<1096:32:41,  2.64s/it]{'loss': 0.9712, 'grad_norm': 2.4437179565429688, 'learning_rate': 3.9320000000000005e-07, 'epoch': 1969.0}
  0%|          | 1970/1500000 [1:38:10<1115:45:11,  2.68s/it]                                                               0%|          | 1970/1500000 [1:38:10<1115:45:11,  2.68s/it]{'loss': 0.9794, 'grad_norm': 3.521821975708008, 'learning_rate': 3.934e-07, 'epoch': 1970.0}
  0%|          | 1971/1500000 [1:38:13<1137:00:24,  2.73s/it]                                                               0%|          | 1971/1500000 [1:38:13<1137:00:24,  2.73s/it]{'loss': 0.9793, 'grad_norm': 2.227405309677124, 'learning_rate': 3.936e-07, 'epoch': 1971.0}
  0%|          | 1972/1500000 [1:38:16<1156:37:08,  2.78s/it]                                                               0%|          | 1972/1500000 [1:38:16<1156:37:08,  2.78s/it]{'loss': 0.9672, 'grad_norm': 1.657660961151123, 'learning_rate': 3.938e-07, 'epoch': 1972.0}
  0%|          | 1973/1500000 [1:38:19<1157:11:48,  2.78s/it]                                                               0%|          | 1973/1500000 [1:38:19<1157:11:48,  2.78s/it]{'loss': 0.9654, 'grad_norm': 1.8627378940582275, 'learning_rate': 3.94e-07, 'epoch': 1973.0}
  0%|          | 1974/1500000 [1:38:22<1160:35:56,  2.79s/it]                                                               0%|          | 1974/1500000 [1:38:22<1160:35:56,  2.79s/it]{'loss': 0.9695, 'grad_norm': 34.36891555786133, 'learning_rate': 3.942e-07, 'epoch': 1974.0}
  0%|          | 1975/1500000 [1:38:25<1168:05:38,  2.81s/it]                                                               0%|          | 1975/1500000 [1:38:25<1168:05:38,  2.81s/it]{'loss': 0.9627, 'grad_norm': 3.786982536315918, 'learning_rate': 3.944e-07, 'epoch': 1975.0}
  0%|          | 1976/1500000 [1:38:27<1171:00:13,  2.81s/it]                                                               0%|          | 1976/1500000 [1:38:27<1171:00:13,  2.81s/it]{'loss': 0.9663, 'grad_norm': 28.368093490600586, 'learning_rate': 3.946e-07, 'epoch': 1976.0}
  0%|          | 1977/1500000 [1:38:30<1170:57:31,  2.81s/it]                                                               0%|          | 1977/1500000 [1:38:30<1170:57:31,  2.81s/it]{'loss': 0.9611, 'grad_norm': 1.6065634489059448, 'learning_rate': 3.948e-07, 'epoch': 1977.0}
  0%|          | 1978/1500000 [1:38:33<1145:35:00,  2.75s/it]                                                               0%|          | 1978/1500000 [1:38:33<1145:35:00,  2.75s/it]{'loss': 0.9675, 'grad_norm': 2.121392250061035, 'learning_rate': 3.9500000000000003e-07, 'epoch': 1978.0}
  0%|          | 1979/1500000 [1:38:36<1150:49:21,  2.77s/it]                                                               0%|          | 1979/1500000 [1:38:36<1150:49:21,  2.77s/it]{'loss': 0.9575, 'grad_norm': 2.7759323120117188, 'learning_rate': 3.9520000000000004e-07, 'epoch': 1979.0}
  0%|          | 1980/1500000 [1:38:38<1124:28:15,  2.70s/it]                                                               0%|          | 1980/1500000 [1:38:38<1124:28:15,  2.70s/it]{'loss': 0.9617, 'grad_norm': 3.3143539428710938, 'learning_rate': 3.954e-07, 'epoch': 1980.0}
  0%|          | 1981/1500000 [1:38:41<1121:51:28,  2.70s/it]                                                               0%|          | 1981/1500000 [1:38:41<1121:51:28,  2.70s/it]{'loss': 0.9636, 'grad_norm': 1.9584237337112427, 'learning_rate': 3.9559999999999997e-07, 'epoch': 1981.0}
  0%|          | 1982/1500000 [1:38:43<1116:13:25,  2.68s/it]                                                               0%|          | 1982/1500000 [1:38:43<1116:13:25,  2.68s/it]{'loss': 0.9618, 'grad_norm': 1.2714217901229858, 'learning_rate': 3.958e-07, 'epoch': 1982.0}
  0%|          | 1983/1500000 [1:38:46<1093:02:50,  2.63s/it]                                                               0%|          | 1983/1500000 [1:38:46<1093:02:50,  2.63s/it]{'loss': 0.9607, 'grad_norm': 2.008420705795288, 'learning_rate': 3.96e-07, 'epoch': 1983.0}
  0%|          | 1984/1500000 [1:38:49<1085:42:40,  2.61s/it]                                                               0%|          | 1984/1500000 [1:38:49<1085:42:40,  2.61s/it]{'loss': 0.9594, 'grad_norm': 3.905332326889038, 'learning_rate': 3.962e-07, 'epoch': 1984.0}
  0%|          | 1985/1500000 [1:38:51<1080:55:31,  2.60s/it]                                                               0%|          | 1985/1500000 [1:38:51<1080:55:31,  2.60s/it]{'loss': 0.9542, 'grad_norm': 2.5194709300994873, 'learning_rate': 3.9640000000000003e-07, 'epoch': 1985.0}
  0%|          | 1986/1500000 [1:38:54<1081:38:17,  2.60s/it]                                                               0%|          | 1986/1500000 [1:38:54<1081:38:17,  2.60s/it]{'loss': 0.9615, 'grad_norm': 2.4487807750701904, 'learning_rate': 3.9660000000000004e-07, 'epoch': 1986.0}
  0%|          | 1987/1500000 [1:38:57<1110:06:35,  2.67s/it]                                                               0%|          | 1987/1500000 [1:38:57<1110:06:35,  2.67s/it]{'loss': 0.9632, 'grad_norm': 16.088909149169922, 'learning_rate': 3.968e-07, 'epoch': 1987.0}
  0%|          | 1988/1500000 [1:38:59<1100:20:32,  2.64s/it]                                                               0%|          | 1988/1500000 [1:38:59<1100:20:32,  2.64s/it]{'loss': 0.9522, 'grad_norm': 2.818525791168213, 'learning_rate': 3.97e-07, 'epoch': 1988.0}
  0%|          | 1989/1500000 [1:39:02<1121:44:40,  2.70s/it]                                                               0%|          | 1989/1500000 [1:39:02<1121:44:40,  2.70s/it]{'loss': 0.9546, 'grad_norm': 1.4082863330841064, 'learning_rate': 3.9720000000000004e-07, 'epoch': 1989.0}
  0%|          | 1990/1500000 [1:39:04<1103:57:53,  2.65s/it]                                                               0%|          | 1990/1500000 [1:39:04<1103:57:53,  2.65s/it]{'loss': 0.9522, 'grad_norm': 2.15368914604187, 'learning_rate': 3.974e-07, 'epoch': 1990.0}
  0%|          | 1991/1500000 [1:39:07<1126:37:35,  2.71s/it]                                                               0%|          | 1991/1500000 [1:39:07<1126:37:35,  2.71s/it]{'loss': 0.9559, 'grad_norm': 1.8837648630142212, 'learning_rate': 3.976e-07, 'epoch': 1991.0}
  0%|          | 1992/1500000 [1:39:10<1138:31:48,  2.74s/it]                                                               0%|          | 1992/1500000 [1:39:10<1138:31:48,  2.74s/it]{'loss': 0.9576, 'grad_norm': 1.5452336072921753, 'learning_rate': 3.978e-07, 'epoch': 1992.0}
  0%|          | 1993/1500000 [1:39:13<1106:50:39,  2.66s/it]                                                               0%|          | 1993/1500000 [1:39:13<1106:50:39,  2.66s/it]{'loss': 0.9526, 'grad_norm': 1.2583602666854858, 'learning_rate': 3.98e-07, 'epoch': 1993.0}
  0%|          | 1994/1500000 [1:39:15<1096:24:10,  2.63s/it]                                                               0%|          | 1994/1500000 [1:39:15<1096:24:10,  2.63s/it]{'loss': 0.9513, 'grad_norm': 2.0931103229522705, 'learning_rate': 3.982e-07, 'epoch': 1994.0}
  0%|          | 1995/1500000 [1:39:18<1113:41:10,  2.68s/it]                                                               0%|          | 1995/1500000 [1:39:18<1113:41:10,  2.68s/it]{'loss': 0.9488, 'grad_norm': 1.651624083518982, 'learning_rate': 3.984e-07, 'epoch': 1995.0}
  0%|          | 1996/1500000 [1:39:21<1134:46:41,  2.73s/it]                                                               0%|          | 1996/1500000 [1:39:21<1134:46:41,  2.73s/it]{'loss': 0.9415, 'grad_norm': 1.7162151336669922, 'learning_rate': 3.9860000000000004e-07, 'epoch': 1996.0}
  0%|          | 1997/1500000 [1:39:23<1124:46:54,  2.70s/it]                                                               0%|          | 1997/1500000 [1:39:23<1124:46:54,  2.70s/it]{'loss': 0.9516, 'grad_norm': 1.7248122692108154, 'learning_rate': 3.9880000000000005e-07, 'epoch': 1997.0}
  0%|          | 1998/1500000 [1:39:26<1119:57:31,  2.69s/it]                                                               0%|          | 1998/1500000 [1:39:26<1119:57:31,  2.69s/it]{'loss': 0.952, 'grad_norm': 7.720129489898682, 'learning_rate': 3.99e-07, 'epoch': 1998.0}
  0%|          | 1999/1500000 [1:39:29<1106:00:21,  2.66s/it]                                                               0%|          | 1999/1500000 [1:39:29<1106:00:21,  2.66s/it]{'loss': 0.9492, 'grad_norm': 7.444540977478027, 'learning_rate': 3.992e-07, 'epoch': 1999.0}
  0%|          | 2000/1500000 [1:39:31<1109:58:52,  2.67s/it]                                                               0%|          | 2000/1500000 [1:39:31<1109:58:52,  2.67s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.9399, 'grad_norm': 5.608745098114014, 'learning_rate': 3.994e-07, 'epoch': 2000.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.33it/s][A
 43%|████▎     | 3/7 [00:02<00:03,  1.11it/s][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.24s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.46s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.43s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.09s/it][A                                                             
                                             [A  0%|          | 2000/1500000 [1:40:14<1109:58:52,  2.67s/it]
100%|██████████| 7/7 [00:08<00:00,  1.09s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1800] due to args.save_total_limit
{'eval_loss': 3.3391761779785156, 'eval_wer': 1.0145608805319881, 'eval_cer': 0.8053407088310163, 'eval_runtime': 14.7077, 'eval_samples_per_second': 66.836, 'eval_steps_per_second': 0.476, 'epoch': 2000.0}
  0%|          | 2001/1500000 [1:40:32<8349:41:31, 20.07s/it]                                                               0%|          | 2001/1500000 [1:40:32<8349:41:31, 20.07s/it]{'loss': 0.9485, 'grad_norm': 1.5442819595336914, 'learning_rate': 3.996e-07, 'epoch': 2001.0}
  0%|          | 2002/1500000 [1:40:35<6170:57:46, 14.83s/it]                                                               0%|          | 2002/1500000 [1:40:35<6170:57:46, 14.83s/it]{'loss': 0.9479, 'grad_norm': 1.4214879274368286, 'learning_rate': 3.998e-07, 'epoch': 2002.0}
  0%|          | 2003/1500000 [1:40:37<4648:47:12, 11.17s/it]                                                               0%|          | 2003/1500000 [1:40:37<4648:47:12, 11.17s/it]{'loss': 0.9406, 'grad_norm': 1.892735242843628, 'learning_rate': 4.0000000000000003e-07, 'epoch': 2003.0}
  0%|          | 2004/1500000 [1:40:40<3578:11:26,  8.60s/it]                                                               0%|          | 2004/1500000 [1:40:40<3578:11:26,  8.60s/it]{'loss': 0.9323, 'grad_norm': 1.5983729362487793, 'learning_rate': 4.002e-07, 'epoch': 2004.0}
  0%|          | 2005/1500000 [1:40:42<2831:40:10,  6.81s/it]                                                               0%|          | 2005/1500000 [1:40:43<2831:40:10,  6.81s/it]{'loss': 0.9495, 'grad_norm': 1.9014179706573486, 'learning_rate': 4.004e-07, 'epoch': 2005.0}
  0%|          | 2006/1500000 [1:40:45<2307:20:22,  5.55s/it]                                                               0%|          | 2006/1500000 [1:40:45<2307:20:22,  5.55s/it]{'loss': 0.9524, 'grad_norm': 3.2964210510253906, 'learning_rate': 4.0060000000000003e-07, 'epoch': 2006.0}
  0%|          | 2007/1500000 [1:40:48<1933:24:33,  4.65s/it]                                                               0%|          | 2007/1500000 [1:40:48<1933:24:33,  4.65s/it]{'loss': 0.9434, 'grad_norm': 1.8830301761627197, 'learning_rate': 4.0080000000000004e-07, 'epoch': 2007.0}
  0%|          | 2008/1500000 [1:40:50<1709:22:22,  4.11s/it]                                                               0%|          | 2008/1500000 [1:40:51<1709:22:22,  4.11s/it]{'loss': 0.94, 'grad_norm': 1.3157950639724731, 'learning_rate': 4.01e-07, 'epoch': 2008.0}
  0%|          | 2009/1500000 [1:40:53<1552:04:07,  3.73s/it]                                                               0%|          | 2009/1500000 [1:40:53<1552:04:07,  3.73s/it]{'loss': 0.9445, 'grad_norm': 2.2688262462615967, 'learning_rate': 4.0119999999999997e-07, 'epoch': 2009.0}
  0%|          | 2010/1500000 [1:40:56<1410:29:03,  3.39s/it]                                                               0%|          | 2010/1500000 [1:40:56<1410:29:03,  3.39s/it]{'loss': 0.938, 'grad_norm': 2.2898025512695312, 'learning_rate': 4.014e-07, 'epoch': 2010.0}
  0%|          | 2011/1500000 [1:40:59<1325:23:38,  3.19s/it]                                                               0%|          | 2011/1500000 [1:40:59<1325:23:38,  3.19s/it]{'loss': 0.9341, 'grad_norm': 7.960855007171631, 'learning_rate': 4.016e-07, 'epoch': 2011.0}
  0%|          | 2012/1500000 [1:41:01<1282:24:54,  3.08s/it]                                                               0%|          | 2012/1500000 [1:41:02<1282:24:54,  3.08s/it]{'loss': 0.9366, 'grad_norm': 1.9337966442108154, 'learning_rate': 4.018e-07, 'epoch': 2012.0}
  0%|          | 2013/1500000 [1:41:04<1273:28:53,  3.06s/it]                                                               0%|          | 2013/1500000 [1:41:05<1273:28:53,  3.06s/it]{'loss': 0.9303, 'grad_norm': 1.5041077136993408, 'learning_rate': 4.02e-07, 'epoch': 2013.0}
  0%|          | 2014/1500000 [1:41:07<1239:24:41,  2.98s/it]                                                               0%|          | 2014/1500000 [1:41:07<1239:24:41,  2.98s/it]{'loss': 0.9345, 'grad_norm': 2.981976270675659, 'learning_rate': 4.0220000000000004e-07, 'epoch': 2014.0}
  0%|          | 2015/1500000 [1:41:10<1185:11:22,  2.85s/it]                                                               0%|          | 2015/1500000 [1:41:10<1185:11:22,  2.85s/it]{'loss': 0.9412, 'grad_norm': 1.4825177192687988, 'learning_rate': 4.024e-07, 'epoch': 2015.0}
  0%|          | 2016/1500000 [1:41:12<1138:18:58,  2.74s/it]                                                               0%|          | 2016/1500000 [1:41:12<1138:18:58,  2.74s/it]{'loss': 0.935, 'grad_norm': 18.188501358032227, 'learning_rate': 4.026e-07, 'epoch': 2016.0}
  0%|          | 2017/1500000 [1:41:15<1115:16:58,  2.68s/it]                                                               0%|          | 2017/1500000 [1:41:15<1115:16:58,  2.68s/it]{'loss': 0.9288, 'grad_norm': 3.3600270748138428, 'learning_rate': 4.0280000000000003e-07, 'epoch': 2017.0}
  0%|          | 2018/1500000 [1:41:17<1099:43:28,  2.64s/it]                                                               0%|          | 2018/1500000 [1:41:17<1099:43:28,  2.64s/it]{'loss': 0.9399, 'grad_norm': 26.50444793701172, 'learning_rate': 4.03e-07, 'epoch': 2018.0}
  0%|          | 2019/1500000 [1:41:20<1088:36:41,  2.62s/it]                                                               0%|          | 2019/1500000 [1:41:20<1088:36:41,  2.62s/it]{'loss': 0.9247, 'grad_norm': 1.9000154733657837, 'learning_rate': 4.032e-07, 'epoch': 2019.0}
  0%|          | 2020/1500000 [1:41:23<1129:30:50,  2.71s/it]                                                               0%|          | 2020/1500000 [1:41:23<1129:30:50,  2.71s/it]{'loss': 0.9232, 'grad_norm': 2.0932023525238037, 'learning_rate': 4.034e-07, 'epoch': 2020.0}
  0%|          | 2021/1500000 [1:41:25<1103:25:02,  2.65s/it]                                                               0%|          | 2021/1500000 [1:41:25<1103:25:02,  2.65s/it]{'loss': 0.9276, 'grad_norm': 8.761795043945312, 'learning_rate': 4.036e-07, 'epoch': 2021.0}
  0%|          | 2022/1500000 [1:41:28<1128:46:13,  2.71s/it]                                                               0%|          | 2022/1500000 [1:41:28<1128:46:13,  2.71s/it]{'loss': 0.9309, 'grad_norm': 2.1862332820892334, 'learning_rate': 4.038e-07, 'epoch': 2022.0}
  0%|          | 2023/1500000 [1:41:31<1110:30:54,  2.67s/it]                                                               0%|          | 2023/1500000 [1:41:31<1110:30:54,  2.67s/it]{'loss': 0.9235, 'grad_norm': 1.5137653350830078, 'learning_rate': 4.04e-07, 'epoch': 2023.0}
  0%|          | 2024/1500000 [1:41:33<1098:47:04,  2.64s/it]                                                               0%|          | 2024/1500000 [1:41:33<1098:47:04,  2.64s/it]{'loss': 0.9215, 'grad_norm': 1.5004817247390747, 'learning_rate': 4.0420000000000003e-07, 'epoch': 2024.0}
  0%|          | 2025/1500000 [1:41:36<1088:32:30,  2.62s/it]                                                               0%|          | 2025/1500000 [1:41:36<1088:32:30,  2.62s/it]{'loss': 0.9381, 'grad_norm': 2.5243425369262695, 'learning_rate': 4.0440000000000005e-07, 'epoch': 2025.0}
  0%|          | 2026/1500000 [1:41:39<1081:21:08,  2.60s/it]                                                               0%|          | 2026/1500000 [1:41:39<1081:21:08,  2.60s/it]{'loss': 0.9157, 'grad_norm': 7.404256343841553, 'learning_rate': 4.046e-07, 'epoch': 2026.0}
  0%|          | 2027/1500000 [1:41:41<1078:42:12,  2.59s/it]                                                               0%|          | 2027/1500000 [1:41:41<1078:42:12,  2.59s/it]{'loss': 0.9285, 'grad_norm': 1.4113649129867554, 'learning_rate': 4.0479999999999997e-07, 'epoch': 2027.0}
  0%|          | 2028/1500000 [1:41:44<1072:19:29,  2.58s/it]                                                               0%|          | 2028/1500000 [1:41:44<1072:19:29,  2.58s/it]{'loss': 0.9263, 'grad_norm': 1.4991756677627563, 'learning_rate': 4.05e-07, 'epoch': 2028.0}
  0%|          | 2029/1500000 [1:41:47<1111:24:53,  2.67s/it]                                                               0%|          | 2029/1500000 [1:41:47<1111:24:53,  2.67s/it]{'loss': 0.9288, 'grad_norm': 4.675659656524658, 'learning_rate': 4.052e-07, 'epoch': 2029.0}
  0%|          | 2030/1500000 [1:41:49<1123:04:19,  2.70s/it]                                                               0%|          | 2030/1500000 [1:41:49<1123:04:19,  2.70s/it]{'loss': 0.9203, 'grad_norm': 1.880242109298706, 'learning_rate': 4.054e-07, 'epoch': 2030.0}
  0%|          | 2031/1500000 [1:41:52<1105:22:27,  2.66s/it]                                                               0%|          | 2031/1500000 [1:41:52<1105:22:27,  2.66s/it]{'loss': 0.9159, 'grad_norm': 5.401375770568848, 'learning_rate': 4.0560000000000003e-07, 'epoch': 2031.0}
  0%|          | 2032/1500000 [1:41:54<1096:25:36,  2.63s/it]                                                               0%|          | 2032/1500000 [1:41:54<1096:25:36,  2.63s/it]{'loss': 0.9185, 'grad_norm': 2.1938765048980713, 'learning_rate': 4.058e-07, 'epoch': 2032.0}
  0%|          | 2033/1500000 [1:41:57<1093:30:25,  2.63s/it]                                                               0%|          | 2033/1500000 [1:41:57<1093:30:25,  2.63s/it]{'loss': 0.9166, 'grad_norm': 3.36993670463562, 'learning_rate': 4.06e-07, 'epoch': 2033.0}
  0%|          | 2034/1500000 [1:42:00<1087:50:02,  2.61s/it]                                                               0%|          | 2034/1500000 [1:42:00<1087:50:02,  2.61s/it]{'loss': 0.9131, 'grad_norm': 9.22850513458252, 'learning_rate': 4.062e-07, 'epoch': 2034.0}
  0%|          | 2035/1500000 [1:42:02<1072:12:40,  2.58s/it]                                                               0%|          | 2035/1500000 [1:42:02<1072:12:40,  2.58s/it]{'loss': 0.9244, 'grad_norm': 1.7849186658859253, 'learning_rate': 4.0640000000000004e-07, 'epoch': 2035.0}
  0%|          | 2036/1500000 [1:42:05<1071:03:15,  2.57s/it]                                                               0%|          | 2036/1500000 [1:42:05<1071:03:15,  2.57s/it]{'loss': 0.924, 'grad_norm': 2.3357551097869873, 'learning_rate': 4.066e-07, 'epoch': 2036.0}
  0%|          | 2037/1500000 [1:42:07<1062:30:24,  2.55s/it]                                                               0%|          | 2037/1500000 [1:42:07<1062:30:24,  2.55s/it]{'loss': 0.9165, 'grad_norm': 2.7704155445098877, 'learning_rate': 4.0679999999999996e-07, 'epoch': 2037.0}
  0%|          | 2038/1500000 [1:42:10<1101:17:11,  2.65s/it]                                                               0%|          | 2038/1500000 [1:42:10<1101:17:11,  2.65s/it]{'loss': 0.9133, 'grad_norm': 3.5959219932556152, 'learning_rate': 4.07e-07, 'epoch': 2038.0}
  0%|          | 2039/1500000 [1:42:13<1121:56:38,  2.70s/it]                                                               0%|          | 2039/1500000 [1:42:13<1121:56:38,  2.70s/it]{'loss': 0.8974, 'grad_norm': 1.5358798503875732, 'learning_rate': 4.072e-07, 'epoch': 2039.0}
  0%|          | 2040/1500000 [1:42:16<1139:52:14,  2.74s/it]                                                               0%|          | 2040/1500000 [1:42:16<1139:52:14,  2.74s/it]{'loss': 0.9053, 'grad_norm': 5.224496364593506, 'learning_rate': 4.074e-07, 'epoch': 2040.0}
  0%|          | 2041/1500000 [1:42:18<1122:35:16,  2.70s/it]                                                               0%|          | 2041/1500000 [1:42:18<1122:35:16,  2.70s/it]{'loss': 0.9047, 'grad_norm': 4.772430419921875, 'learning_rate': 4.076e-07, 'epoch': 2041.0}
  0%|          | 2042/1500000 [1:42:21<1095:27:46,  2.63s/it]                                                               0%|          | 2042/1500000 [1:42:21<1095:27:46,  2.63s/it]{'loss': 0.9143, 'grad_norm': 3.4939639568328857, 'learning_rate': 4.0780000000000004e-07, 'epoch': 2042.0}
  0%|          | 2043/1500000 [1:42:24<1123:16:44,  2.70s/it]                                                               0%|          | 2043/1500000 [1:42:24<1123:16:44,  2.70s/it]{'loss': 0.9057, 'grad_norm': 4.076958656311035, 'learning_rate': 4.08e-07, 'epoch': 2043.0}
  0%|          | 2044/1500000 [1:42:26<1107:26:04,  2.66s/it]                                                               0%|          | 2044/1500000 [1:42:26<1107:26:04,  2.66s/it]{'loss': 0.9092, 'grad_norm': 3.845031976699829, 'learning_rate': 4.082e-07, 'epoch': 2044.0}
  0%|          | 2045/1500000 [1:42:29<1092:04:06,  2.62s/it]                                                               0%|          | 2045/1500000 [1:42:29<1092:04:06,  2.62s/it]{'loss': 0.9106, 'grad_norm': 1.4870880842208862, 'learning_rate': 4.0840000000000003e-07, 'epoch': 2045.0}
  0%|          | 2046/1500000 [1:42:31<1085:32:55,  2.61s/it]                                                               0%|          | 2046/1500000 [1:42:31<1085:32:55,  2.61s/it]{'loss': 0.9186, 'grad_norm': 9.591570854187012, 'learning_rate': 4.086e-07, 'epoch': 2046.0}
  0%|          | 2047/1500000 [1:42:34<1086:52:26,  2.61s/it]                                                               0%|          | 2047/1500000 [1:42:34<1086:52:26,  2.61s/it]{'loss': 0.9075, 'grad_norm': 1.3967509269714355, 'learning_rate': 4.088e-07, 'epoch': 2047.0}
  0%|          | 2048/1500000 [1:42:37<1116:14:00,  2.68s/it]                                                               0%|          | 2048/1500000 [1:42:37<1116:14:00,  2.68s/it]{'loss': 0.9064, 'grad_norm': 2.7768054008483887, 'learning_rate': 4.09e-07, 'epoch': 2048.0}
  0%|          | 2049/1500000 [1:42:40<1130:47:03,  2.72s/it]                                                               0%|          | 2049/1500000 [1:42:40<1130:47:03,  2.72s/it]{'loss': 0.9031, 'grad_norm': 6.387142658233643, 'learning_rate': 4.092e-07, 'epoch': 2049.0}
  0%|          | 2050/1500000 [1:42:42<1148:22:51,  2.76s/it]                                                               0%|          | 2050/1500000 [1:42:42<1148:22:51,  2.76s/it]{'loss': 0.9165, 'grad_norm': 2.2693076133728027, 'learning_rate': 4.094e-07, 'epoch': 2050.0}
  0%|          | 2051/1500000 [1:42:45<1127:39:06,  2.71s/it]                                                               0%|          | 2051/1500000 [1:42:45<1127:39:06,  2.71s/it]{'loss': 0.9125, 'grad_norm': 3.097625732421875, 'learning_rate': 4.096e-07, 'epoch': 2051.0}
  0%|          | 2052/1500000 [1:42:48<1113:07:17,  2.68s/it]                                                               0%|          | 2052/1500000 [1:42:48<1113:07:17,  2.68s/it]{'loss': 0.9072, 'grad_norm': 2.508089542388916, 'learning_rate': 4.0980000000000003e-07, 'epoch': 2052.0}
  0%|          | 2053/1500000 [1:42:50<1109:17:42,  2.67s/it]                                                               0%|          | 2053/1500000 [1:42:50<1109:17:42,  2.67s/it]{'loss': 0.9085, 'grad_norm': 1.5760879516601562, 'learning_rate': 4.1000000000000004e-07, 'epoch': 2053.0}
  0%|          | 2054/1500000 [1:42:53<1104:17:32,  2.65s/it]                                                               0%|          | 2054/1500000 [1:42:53<1104:17:32,  2.65s/it]{'loss': 0.9061, 'grad_norm': 2.5406298637390137, 'learning_rate': 4.102e-07, 'epoch': 2054.0}
  0%|          | 2055/1500000 [1:42:56<1124:45:59,  2.70s/it]                                                               0%|          | 2055/1500000 [1:42:56<1124:45:59,  2.70s/it]{'loss': 0.9098, 'grad_norm': 1.5545470714569092, 'learning_rate': 4.1039999999999997e-07, 'epoch': 2055.0}
  0%|          | 2056/1500000 [1:42:59<1141:30:55,  2.74s/it]                                                               0%|          | 2056/1500000 [1:42:59<1141:30:55,  2.74s/it]{'loss': 0.9033, 'grad_norm': 1.6209955215454102, 'learning_rate': 4.106e-07, 'epoch': 2056.0}
  0%|          | 2057/1500000 [1:43:01<1154:22:02,  2.77s/it]                                                               0%|          | 2057/1500000 [1:43:01<1154:22:02,  2.77s/it]{'loss': 0.8969, 'grad_norm': 2.06101131439209, 'learning_rate': 4.108e-07, 'epoch': 2057.0}
  0%|          | 2058/1500000 [1:43:04<1163:32:54,  2.80s/it]                                                               0%|          | 2058/1500000 [1:43:04<1163:32:54,  2.80s/it]{'loss': 0.8978, 'grad_norm': 1.7286264896392822, 'learning_rate': 4.11e-07, 'epoch': 2058.0}
  0%|          | 2059/1500000 [1:43:07<1177:43:18,  2.83s/it]                                                               0%|          | 2059/1500000 [1:43:07<1177:43:18,  2.83s/it]{'loss': 0.8939, 'grad_norm': 1.545149326324463, 'learning_rate': 4.1120000000000003e-07, 'epoch': 2059.0}
  0%|          | 2060/1500000 [1:43:10<1145:04:27,  2.75s/it]                                                               0%|          | 2060/1500000 [1:43:10<1145:04:27,  2.75s/it]{'loss': 0.8975, 'grad_norm': 16.528738021850586, 'learning_rate': 4.114e-07, 'epoch': 2060.0}
  0%|          | 2061/1500000 [1:43:12<1119:29:54,  2.69s/it]                                                               0%|          | 2061/1500000 [1:43:12<1119:29:54,  2.69s/it]{'loss': 0.903, 'grad_norm': 3.9469239711761475, 'learning_rate': 4.116e-07, 'epoch': 2061.0}
  0%|          | 2062/1500000 [1:43:15<1134:24:34,  2.73s/it]                                                               0%|          | 2062/1500000 [1:43:15<1134:24:34,  2.73s/it]{'loss': 0.9095, 'grad_norm': 3.0767955780029297, 'learning_rate': 4.118e-07, 'epoch': 2062.0}
  0%|          | 2063/1500000 [1:43:18<1144:21:23,  2.75s/it]                                                               0%|          | 2063/1500000 [1:43:18<1144:21:23,  2.75s/it]{'loss': 0.9082, 'grad_norm': 1.6224340200424194, 'learning_rate': 4.1200000000000004e-07, 'epoch': 2063.0}
  0%|          | 2064/1500000 [1:43:21<1149:38:15,  2.76s/it]                                                               0%|          | 2064/1500000 [1:43:21<1149:38:15,  2.76s/it]{'loss': 0.8897, 'grad_norm': 3.2482709884643555, 'learning_rate': 4.122e-07, 'epoch': 2064.0}
  0%|          | 2065/1500000 [1:43:23<1125:20:22,  2.70s/it]                                                               0%|          | 2065/1500000 [1:43:23<1125:20:22,  2.70s/it]{'loss': 0.892, 'grad_norm': 6.272839546203613, 'learning_rate': 4.124e-07, 'epoch': 2065.0}
  0%|          | 2066/1500000 [1:43:26<1109:35:35,  2.67s/it]                                                               0%|          | 2066/1500000 [1:43:26<1109:35:35,  2.67s/it]{'loss': 0.9033, 'grad_norm': 8.478707313537598, 'learning_rate': 4.126e-07, 'epoch': 2066.0}
  0%|          | 2067/1500000 [1:43:29<1112:31:36,  2.67s/it]                                                               0%|          | 2067/1500000 [1:43:29<1112:31:36,  2.67s/it]{'loss': 0.8941, 'grad_norm': 1.7739381790161133, 'learning_rate': 4.128e-07, 'epoch': 2067.0}
  0%|          | 2068/1500000 [1:43:31<1104:20:03,  2.65s/it]                                                               0%|          | 2068/1500000 [1:43:31<1104:20:03,  2.65s/it]{'loss': 0.8962, 'grad_norm': 1.5281870365142822, 'learning_rate': 4.13e-07, 'epoch': 2068.0}
  0%|          | 2069/1500000 [1:43:34<1090:06:10,  2.62s/it]                                                               0%|          | 2069/1500000 [1:43:34<1090:06:10,  2.62s/it]{'loss': 0.8961, 'grad_norm': 1.8254709243774414, 'learning_rate': 4.132e-07, 'epoch': 2069.0}
  0%|          | 2070/1500000 [1:43:36<1092:38:25,  2.63s/it]                                                               0%|          | 2070/1500000 [1:43:36<1092:38:25,  2.63s/it]{'loss': 0.8841, 'grad_norm': 3.2792246341705322, 'learning_rate': 4.1340000000000004e-07, 'epoch': 2070.0}
  0%|          | 2071/1500000 [1:43:39<1087:05:49,  2.61s/it]                                                               0%|          | 2071/1500000 [1:43:39<1087:05:49,  2.61s/it]{'loss': 0.8896, 'grad_norm': 4.909586429595947, 'learning_rate': 4.136e-07, 'epoch': 2071.0}
  0%|          | 2072/1500000 [1:43:42<1122:43:29,  2.70s/it]                                                               0%|          | 2072/1500000 [1:43:42<1122:43:29,  2.70s/it]{'loss': 0.8921, 'grad_norm': 1.9884498119354248, 'learning_rate': 4.138e-07, 'epoch': 2072.0}
  0%|          | 2073/1500000 [1:43:44<1100:23:20,  2.64s/it]                                                               0%|          | 2073/1500000 [1:43:44<1100:23:20,  2.64s/it]{'loss': 0.884, 'grad_norm': 2.8727872371673584, 'learning_rate': 4.1400000000000003e-07, 'epoch': 2073.0}
  0%|          | 2074/1500000 [1:43:47<1086:31:53,  2.61s/it]                                                               0%|          | 2074/1500000 [1:43:47<1086:31:53,  2.61s/it]{'loss': 0.8888, 'grad_norm': 2.0526950359344482, 'learning_rate': 4.142e-07, 'epoch': 2074.0}
  0%|          | 2075/1500000 [1:43:50<1108:56:44,  2.67s/it]                                                               0%|          | 2075/1500000 [1:43:50<1108:56:44,  2.67s/it]{'loss': 0.883, 'grad_norm': 1.3590874671936035, 'learning_rate': 4.144e-07, 'epoch': 2075.0}
  0%|          | 2076/1500000 [1:43:52<1092:36:05,  2.63s/it]                                                               0%|          | 2076/1500000 [1:43:52<1092:36:05,  2.63s/it]{'loss': 0.8809, 'grad_norm': 2.2344892024993896, 'learning_rate': 4.146e-07, 'epoch': 2076.0}
  0%|          | 2077/1500000 [1:43:55<1089:59:45,  2.62s/it]                                                               0%|          | 2077/1500000 [1:43:55<1089:59:45,  2.62s/it]{'loss': 0.8929, 'grad_norm': 6.040419101715088, 'learning_rate': 4.148e-07, 'epoch': 2077.0}
  0%|          | 2078/1500000 [1:43:58<1109:40:10,  2.67s/it]                                                               0%|          | 2078/1500000 [1:43:58<1109:40:10,  2.67s/it]{'loss': 0.8893, 'grad_norm': 1.2789433002471924, 'learning_rate': 4.15e-07, 'epoch': 2078.0}
  0%|          | 2079/1500000 [1:44:00<1095:27:47,  2.63s/it]                                                               0%|          | 2079/1500000 [1:44:00<1095:27:47,  2.63s/it]{'loss': 0.887, 'grad_norm': 2.8425042629241943, 'learning_rate': 4.152e-07, 'epoch': 2079.0}
  0%|          | 2080/1500000 [1:44:03<1130:12:47,  2.72s/it]                                                               0%|          | 2080/1500000 [1:44:03<1130:12:47,  2.72s/it]{'loss': 0.8811, 'grad_norm': 3.2859902381896973, 'learning_rate': 4.1540000000000003e-07, 'epoch': 2080.0}
  0%|          | 2081/1500000 [1:44:05<1094:55:47,  2.63s/it]                                                               0%|          | 2081/1500000 [1:44:05<1094:55:47,  2.63s/it]{'loss': 0.8853, 'grad_norm': 1.6132323741912842, 'learning_rate': 4.1560000000000004e-07, 'epoch': 2081.0}
  0%|          | 2082/1500000 [1:44:08<1083:10:33,  2.60s/it]                                                               0%|          | 2082/1500000 [1:44:08<1083:10:33,  2.60s/it]{'loss': 0.8816, 'grad_norm': 1.650577425956726, 'learning_rate': 4.1580000000000006e-07, 'epoch': 2082.0}
  0%|          | 2083/1500000 [1:44:11<1101:40:54,  2.65s/it]                                                               0%|          | 2083/1500000 [1:44:11<1101:40:54,  2.65s/it]{'loss': 0.8884, 'grad_norm': 3.1569669246673584, 'learning_rate': 4.1599999999999997e-07, 'epoch': 2083.0}
  0%|          | 2084/1500000 [1:44:14<1129:53:48,  2.72s/it]                                                               0%|          | 2084/1500000 [1:44:14<1129:53:48,  2.72s/it]{'loss': 0.8748, 'grad_norm': 1.8759745359420776, 'learning_rate': 4.162e-07, 'epoch': 2084.0}
  0%|          | 2085/1500000 [1:44:16<1139:16:43,  2.74s/it]                                                               0%|          | 2085/1500000 [1:44:16<1139:16:43,  2.74s/it]{'loss': 0.8818, 'grad_norm': 11.586681365966797, 'learning_rate': 4.164e-07, 'epoch': 2085.0}
  0%|          | 2086/1500000 [1:44:19<1161:31:42,  2.79s/it]                                                               0%|          | 2086/1500000 [1:44:19<1161:31:42,  2.79s/it]{'loss': 0.89, 'grad_norm': 1.3443692922592163, 'learning_rate': 4.166e-07, 'epoch': 2086.0}
  0%|          | 2087/1500000 [1:44:22<1168:45:07,  2.81s/it]                                                               0%|          | 2087/1500000 [1:44:22<1168:45:07,  2.81s/it]{'loss': 0.8814, 'grad_norm': 27.492137908935547, 'learning_rate': 4.168e-07, 'epoch': 2087.0}
  0%|          | 2088/1500000 [1:44:25<1140:23:23,  2.74s/it]                                                               0%|          | 2088/1500000 [1:44:25<1140:23:23,  2.74s/it]{'loss': 0.8824, 'grad_norm': 1.3072913885116577, 'learning_rate': 4.17e-07, 'epoch': 2088.0}
  0%|          | 2089/1500000 [1:44:28<1150:56:04,  2.77s/it]                                                               0%|          | 2089/1500000 [1:44:28<1150:56:04,  2.77s/it]{'loss': 0.8842, 'grad_norm': 1.4201947450637817, 'learning_rate': 4.172e-07, 'epoch': 2089.0}
  0%|          | 2090/1500000 [1:44:30<1124:52:49,  2.70s/it]                                                               0%|          | 2090/1500000 [1:44:30<1124:52:49,  2.70s/it]{'loss': 0.8727, 'grad_norm': 3.352806806564331, 'learning_rate': 4.174e-07, 'epoch': 2090.0}
  0%|          | 2091/1500000 [1:44:33<1106:55:38,  2.66s/it]                                                               0%|          | 2091/1500000 [1:44:33<1106:55:38,  2.66s/it]{'loss': 0.8686, 'grad_norm': 1.9906901121139526, 'learning_rate': 4.1760000000000003e-07, 'epoch': 2091.0}
  0%|          | 2092/1500000 [1:44:35<1081:16:36,  2.60s/it]                                                               0%|          | 2092/1500000 [1:44:35<1081:16:36,  2.60s/it]{'loss': 0.8688, 'grad_norm': 2.7531464099884033, 'learning_rate': 4.1780000000000005e-07, 'epoch': 2092.0}
  0%|          | 2093/1500000 [1:44:38<1071:31:35,  2.58s/it]                                                               0%|          | 2093/1500000 [1:44:38<1071:31:35,  2.58s/it]{'loss': 0.8824, 'grad_norm': 1.4176814556121826, 'learning_rate': 4.18e-07, 'epoch': 2093.0}
  0%|          | 2094/1500000 [1:44:40<1066:34:40,  2.56s/it]                                                               0%|          | 2094/1500000 [1:44:40<1066:34:40,  2.56s/it]{'loss': 0.8797, 'grad_norm': 3.0233776569366455, 'learning_rate': 4.1819999999999997e-07, 'epoch': 2094.0}
  0%|          | 2095/1500000 [1:44:43<1058:13:37,  2.54s/it]                                                               0%|          | 2095/1500000 [1:44:43<1058:13:37,  2.54s/it]{'loss': 0.863, 'grad_norm': 1.737678050994873, 'learning_rate': 4.184e-07, 'epoch': 2095.0}
  0%|          | 2096/1500000 [1:44:45<1071:01:31,  2.57s/it]                                                               0%|          | 2096/1500000 [1:44:45<1071:01:31,  2.57s/it]{'loss': 0.8557, 'grad_norm': 1.962603211402893, 'learning_rate': 4.186e-07, 'epoch': 2096.0}
  0%|          | 2097/1500000 [1:44:48<1066:08:28,  2.56s/it]                                                               0%|          | 2097/1500000 [1:44:48<1066:08:28,  2.56s/it]{'loss': 0.8694, 'grad_norm': 1.4941810369491577, 'learning_rate': 4.188e-07, 'epoch': 2097.0}
  0%|          | 2098/1500000 [1:44:50<1066:25:16,  2.56s/it]                                                               0%|          | 2098/1500000 [1:44:50<1066:25:16,  2.56s/it]{'loss': 0.878, 'grad_norm': 1.9044365882873535, 'learning_rate': 4.1900000000000003e-07, 'epoch': 2098.0}
  0%|          | 2099/1500000 [1:44:53<1060:43:39,  2.55s/it]                                                               0%|          | 2099/1500000 [1:44:53<1060:43:39,  2.55s/it]{'loss': 0.8609, 'grad_norm': 1.858277678489685, 'learning_rate': 4.1920000000000005e-07, 'epoch': 2099.0}
  0%|          | 2100/1500000 [1:44:56<1064:30:26,  2.56s/it]                                                               0%|          | 2100/1500000 [1:44:56<1064:30:26,  2.56s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.8678, 'grad_norm': 1.2712960243225098, 'learning_rate': 4.194e-07, 'epoch': 2100.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.11it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.15s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.20s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.35s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.53s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.17s/it][A                                                             
                                             [A  0%|          | 2100/1500000 [1:45:40<1064:30:26,  2.56s/it]
100%|██████████| 7/7 [00:09<00:00,  1.17s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-1900] due to args.save_total_limit
{'eval_loss': 3.3163740634918213, 'eval_wer': 1.0220132997019031, 'eval_cer': 0.7927109849226551, 'eval_runtime': 17.9365, 'eval_samples_per_second': 54.805, 'eval_steps_per_second': 0.39, 'epoch': 2100.0}
  0%|          | 2101/1500000 [1:45:58<8520:11:57, 20.48s/it]                                                               0%|          | 2101/1500000 [1:45:58<8520:11:57, 20.48s/it]{'loss': 0.8636, 'grad_norm': 2.4176993370056152, 'learning_rate': 4.196e-07, 'epoch': 2101.0}
  0%|          | 2102/1500000 [1:46:01<6328:54:23, 15.21s/it]                                                               0%|          | 2102/1500000 [1:46:01<6328:54:23, 15.21s/it]{'loss': 0.8594, 'grad_norm': 1.480994701385498, 'learning_rate': 4.198e-07, 'epoch': 2102.0}
  0%|          | 2103/1500000 [1:46:03<4762:46:08, 11.45s/it]                                                               0%|          | 2103/1500000 [1:46:03<4762:46:08, 11.45s/it]{'loss': 0.8618, 'grad_norm': 3.5219526290893555, 'learning_rate': 4.2e-07, 'epoch': 2103.0}
  0%|          | 2104/1500000 [1:46:06<3689:48:21,  8.87s/it]                                                               0%|          | 2104/1500000 [1:46:06<3689:48:21,  8.87s/it]{'loss': 0.859, 'grad_norm': 2.6089649200439453, 'learning_rate': 4.202e-07, 'epoch': 2104.0}
  0%|          | 2105/1500000 [1:46:09<2929:11:46,  7.04s/it]                                                               0%|          | 2105/1500000 [1:46:09<2929:11:46,  7.04s/it]{'loss': 0.8616, 'grad_norm': 2.049163579940796, 'learning_rate': 4.204e-07, 'epoch': 2105.0}
  0%|          | 2106/1500000 [1:46:12<2374:52:07,  5.71s/it]                                                               0%|          | 2106/1500000 [1:46:12<2374:52:07,  5.71s/it]{'loss': 0.855, 'grad_norm': 1.8195151090621948, 'learning_rate': 4.206e-07, 'epoch': 2106.0}
  0%|          | 2107/1500000 [1:46:15<2020:44:17,  4.86s/it]                                                               0%|          | 2107/1500000 [1:46:15<2020:44:17,  4.86s/it]{'loss': 0.8557, 'grad_norm': 1.8031939268112183, 'learning_rate': 4.208e-07, 'epoch': 2107.0}
  0%|          | 2108/1500000 [1:46:17<1735:09:00,  4.17s/it]                                                               0%|          | 2108/1500000 [1:46:17<1735:09:00,  4.17s/it]{'loss': 0.8557, 'grad_norm': 1.3502373695373535, 'learning_rate': 4.21e-07, 'epoch': 2108.0}
  0%|          | 2109/1500000 [1:46:20<1541:31:51,  3.70s/it]                                                               0%|          | 2109/1500000 [1:46:20<1541:31:51,  3.70s/it]{'loss': 0.8557, 'grad_norm': 1.7952654361724854, 'learning_rate': 4.2120000000000004e-07, 'epoch': 2109.0}
  0%|          | 2110/1500000 [1:46:22<1402:18:18,  3.37s/it]                                                               0%|          | 2110/1500000 [1:46:22<1402:18:18,  3.37s/it]{'loss': 0.8557, 'grad_norm': 19.388593673706055, 'learning_rate': 4.2140000000000005e-07, 'epoch': 2110.0}
  0%|          | 2111/1500000 [1:46:25<1309:14:29,  3.15s/it]                                                               0%|          | 2111/1500000 [1:46:25<1309:14:29,  3.15s/it]{'loss': 0.8571, 'grad_norm': 4.9944748878479, 'learning_rate': 4.2159999999999996e-07, 'epoch': 2111.0}
  0%|          | 2112/1500000 [1:46:28<1246:12:13,  3.00s/it]                                                               0%|          | 2112/1500000 [1:46:28<1246:12:13,  3.00s/it]{'loss': 0.8557, 'grad_norm': 2.1493332386016846, 'learning_rate': 4.218e-07, 'epoch': 2112.0}
  0%|          | 2113/1500000 [1:46:30<1193:21:48,  2.87s/it]                                                               0%|          | 2113/1500000 [1:46:30<1193:21:48,  2.87s/it]{'loss': 0.8506, 'grad_norm': 1.9211595058441162, 'learning_rate': 4.22e-07, 'epoch': 2113.0}
  0%|          | 2114/1500000 [1:46:33<1153:23:22,  2.77s/it]                                                               0%|          | 2114/1500000 [1:46:33<1153:23:22,  2.77s/it]{'loss': 0.8442, 'grad_norm': 1.5386908054351807, 'learning_rate': 4.222e-07, 'epoch': 2114.0}
  0%|          | 2115/1500000 [1:46:35<1133:46:56,  2.72s/it]                                                               0%|          | 2115/1500000 [1:46:35<1133:46:56,  2.72s/it]{'loss': 0.8447, 'grad_norm': 1.6563053131103516, 'learning_rate': 4.224e-07, 'epoch': 2115.0}
  0%|          | 2116/1500000 [1:46:38<1188:31:40,  2.86s/it]                                                               0%|          | 2116/1500000 [1:46:38<1188:31:40,  2.86s/it]{'loss': 0.8463, 'grad_norm': 1.2879685163497925, 'learning_rate': 4.2260000000000004e-07, 'epoch': 2116.0}
  0%|          | 2117/1500000 [1:46:41<1154:30:42,  2.77s/it]                                                               0%|          | 2117/1500000 [1:46:41<1154:30:42,  2.77s/it]{'loss': 0.8571, 'grad_norm': 3.166722536087036, 'learning_rate': 4.228e-07, 'epoch': 2117.0}
  0%|          | 2118/1500000 [1:46:44<1129:13:17,  2.71s/it]                                                               0%|          | 2118/1500000 [1:46:44<1129:13:17,  2.71s/it]{'loss': 0.84, 'grad_norm': 2.1968770027160645, 'learning_rate': 4.23e-07, 'epoch': 2118.0}
  0%|          | 2119/1500000 [1:46:46<1118:33:50,  2.69s/it]                                                               0%|          | 2119/1500000 [1:46:46<1118:33:50,  2.69s/it]{'loss': 0.8527, 'grad_norm': 6.687355995178223, 'learning_rate': 4.2320000000000003e-07, 'epoch': 2119.0}
  0%|          | 2120/1500000 [1:46:49<1096:58:01,  2.64s/it]                                                               0%|          | 2120/1500000 [1:46:49<1096:58:01,  2.64s/it]{'loss': 0.8558, 'grad_norm': 2.0161619186401367, 'learning_rate': 4.2340000000000005e-07, 'epoch': 2120.0}
  0%|          | 2121/1500000 [1:46:52<1123:37:48,  2.70s/it]                                                               0%|          | 2121/1500000 [1:46:52<1123:37:48,  2.70s/it]{'loss': 0.844, 'grad_norm': 2.572359800338745, 'learning_rate': 4.236e-07, 'epoch': 2121.0}
  0%|          | 2122/1500000 [1:46:55<1166:26:22,  2.80s/it]                                                               0%|          | 2122/1500000 [1:46:55<1166:26:22,  2.80s/it]{'loss': 0.8511, 'grad_norm': 1.969383955001831, 'learning_rate': 4.2379999999999997e-07, 'epoch': 2122.0}
  0%|          | 2123/1500000 [1:46:57<1168:15:25,  2.81s/it]                                                               0%|          | 2123/1500000 [1:46:58<1168:15:25,  2.81s/it]{'loss': 0.8471, 'grad_norm': 1.8822544813156128, 'learning_rate': 4.24e-07, 'epoch': 2123.0}
  0%|          | 2124/1500000 [1:47:00<1136:41:17,  2.73s/it]                                                               0%|          | 2124/1500000 [1:47:00<1136:41:17,  2.73s/it]{'loss': 0.8437, 'grad_norm': 1.8615280389785767, 'learning_rate': 4.242e-07, 'epoch': 2124.0}
  0%|          | 2125/1500000 [1:47:03<1151:05:29,  2.77s/it]                                                               0%|          | 2125/1500000 [1:47:03<1151:05:29,  2.77s/it]{'loss': 0.8391, 'grad_norm': 1.9092673063278198, 'learning_rate': 4.244e-07, 'epoch': 2125.0}
  0%|          | 2126/1500000 [1:47:06<1169:45:44,  2.81s/it]                                                               0%|          | 2126/1500000 [1:47:06<1169:45:44,  2.81s/it]{'loss': 0.8494, 'grad_norm': 2.4512929916381836, 'learning_rate': 4.2460000000000003e-07, 'epoch': 2126.0}
  0%|          | 2127/1500000 [1:47:08<1144:57:43,  2.75s/it]                                                               0%|          | 2127/1500000 [1:47:08<1144:57:43,  2.75s/it]{'loss': 0.8336, 'grad_norm': 1.414710283279419, 'learning_rate': 4.2480000000000005e-07, 'epoch': 2127.0}
  0%|          | 2128/1500000 [1:47:11<1117:13:09,  2.69s/it]                                                               0%|          | 2128/1500000 [1:47:11<1117:13:09,  2.69s/it]{'loss': 0.8356, 'grad_norm': 2.0380635261535645, 'learning_rate': 4.25e-07, 'epoch': 2128.0}
  0%|          | 2129/1500000 [1:47:14<1138:56:42,  2.74s/it]                                                               0%|          | 2129/1500000 [1:47:14<1138:56:42,  2.74s/it]{'loss': 0.8418, 'grad_norm': 4.1426825523376465, 'learning_rate': 4.252e-07, 'epoch': 2129.0}
  0%|          | 2130/1500000 [1:47:16<1117:29:21,  2.69s/it]                                                               0%|          | 2130/1500000 [1:47:16<1117:29:21,  2.69s/it]{'loss': 0.8398, 'grad_norm': 3.156694173812866, 'learning_rate': 4.254e-07, 'epoch': 2130.0}
  0%|          | 2131/1500000 [1:47:19<1139:08:25,  2.74s/it]                                                               0%|          | 2131/1500000 [1:47:19<1139:08:25,  2.74s/it]{'loss': 0.8319, 'grad_norm': 2.817566156387329, 'learning_rate': 4.256e-07, 'epoch': 2131.0}
  0%|          | 2132/1500000 [1:47:22<1114:22:51,  2.68s/it]                                                               0%|          | 2132/1500000 [1:47:22<1114:22:51,  2.68s/it]{'loss': 0.8343, 'grad_norm': 9.865180015563965, 'learning_rate': 4.258e-07, 'epoch': 2132.0}
  0%|          | 2133/1500000 [1:47:24<1103:18:24,  2.65s/it]                                                               0%|          | 2133/1500000 [1:47:24<1103:18:24,  2.65s/it]{'loss': 0.8479, 'grad_norm': 2.708737850189209, 'learning_rate': 4.2600000000000003e-07, 'epoch': 2133.0}
  0%|          | 2134/1500000 [1:47:27<1121:52:51,  2.70s/it]                                                               0%|          | 2134/1500000 [1:47:27<1121:52:51,  2.70s/it]{'loss': 0.8292, 'grad_norm': 3.565485715866089, 'learning_rate': 4.262e-07, 'epoch': 2134.0}
  0%|          | 2135/1500000 [1:47:30<1104:47:01,  2.66s/it]                                                               0%|          | 2135/1500000 [1:47:30<1104:47:01,  2.66s/it]{'loss': 0.8365, 'grad_norm': 6.5098676681518555, 'learning_rate': 4.264e-07, 'epoch': 2135.0}
  0%|          | 2136/1500000 [1:47:32<1091:10:13,  2.62s/it]                                                               0%|          | 2136/1500000 [1:47:32<1091:10:13,  2.62s/it]{'loss': 0.848, 'grad_norm': 8.945651054382324, 'learning_rate': 4.266e-07, 'epoch': 2136.0}
  0%|          | 2137/1500000 [1:47:35<1118:43:29,  2.69s/it]                                                               0%|          | 2137/1500000 [1:47:35<1118:43:29,  2.69s/it]{'loss': 0.8263, 'grad_norm': 2.300949811935425, 'learning_rate': 4.2680000000000004e-07, 'epoch': 2137.0}
  0%|          | 2138/1500000 [1:47:38<1099:56:18,  2.64s/it]                                                               0%|          | 2138/1500000 [1:47:38<1099:56:18,  2.64s/it]{'loss': 0.8307, 'grad_norm': 1.9306195974349976, 'learning_rate': 4.2700000000000005e-07, 'epoch': 2138.0}
  0%|          | 2139/1500000 [1:47:40<1094:31:08,  2.63s/it]                                                               0%|          | 2139/1500000 [1:47:40<1094:31:08,  2.63s/it]{'loss': 0.8291, 'grad_norm': 1.4154534339904785, 'learning_rate': 4.2719999999999996e-07, 'epoch': 2139.0}
  0%|          | 2140/1500000 [1:47:43<1088:00:12,  2.61s/it]                                                               0%|          | 2140/1500000 [1:47:43<1088:00:12,  2.61s/it]{'loss': 0.8334, 'grad_norm': 1.6991848945617676, 'learning_rate': 4.274e-07, 'epoch': 2140.0}
  0%|          | 2141/1500000 [1:47:46<1113:34:53,  2.68s/it]                                                               0%|          | 2141/1500000 [1:47:46<1113:34:53,  2.68s/it]{'loss': 0.8335, 'grad_norm': 10.11667537689209, 'learning_rate': 4.276e-07, 'epoch': 2141.0}
  0%|          | 2142/1500000 [1:47:48<1104:36:32,  2.65s/it]                                                               0%|          | 2142/1500000 [1:47:48<1104:36:32,  2.65s/it]{'loss': 0.8255, 'grad_norm': 1.6144959926605225, 'learning_rate': 4.278e-07, 'epoch': 2142.0}
  0%|          | 2143/1500000 [1:47:51<1095:18:15,  2.63s/it]                                                               0%|          | 2143/1500000 [1:47:51<1095:18:15,  2.63s/it]{'loss': 0.8484, 'grad_norm': 2.5679099559783936, 'learning_rate': 4.28e-07, 'epoch': 2143.0}
  0%|          | 2144/1500000 [1:47:53<1078:10:56,  2.59s/it]                                                               0%|          | 2144/1500000 [1:47:53<1078:10:56,  2.59s/it]{'loss': 0.8349, 'grad_norm': 3.743192434310913, 'learning_rate': 4.2820000000000004e-07, 'epoch': 2144.0}
  0%|          | 2145/1500000 [1:47:56<1081:14:44,  2.60s/it]                                                               0%|          | 2145/1500000 [1:47:56<1081:14:44,  2.60s/it]{'loss': 0.8349, 'grad_norm': 1.541958212852478, 'learning_rate': 4.284e-07, 'epoch': 2145.0}
  0%|          | 2146/1500000 [1:47:58<1074:11:31,  2.58s/it]                                                               0%|          | 2146/1500000 [1:47:58<1074:11:31,  2.58s/it]{'loss': 0.8078, 'grad_norm': 5.0683207511901855, 'learning_rate': 4.286e-07, 'epoch': 2146.0}
  0%|          | 2147/1500000 [1:48:01<1067:41:26,  2.57s/it]                                                               0%|          | 2147/1500000 [1:48:01<1067:41:26,  2.57s/it]{'loss': 0.8323, 'grad_norm': 1.862710952758789, 'learning_rate': 4.2880000000000003e-07, 'epoch': 2147.0}
  0%|          | 2148/1500000 [1:48:04<1066:55:16,  2.56s/it]                                                               0%|          | 2148/1500000 [1:48:04<1066:55:16,  2.56s/it]{'loss': 0.8242, 'grad_norm': 1.4006683826446533, 'learning_rate': 4.2900000000000004e-07, 'epoch': 2148.0}
  0%|          | 2149/1500000 [1:48:06<1062:57:36,  2.55s/it]                                                               0%|          | 2149/1500000 [1:48:06<1062:57:36,  2.55s/it]{'loss': 0.8294, 'grad_norm': 10.514242172241211, 'learning_rate': 4.292e-07, 'epoch': 2149.0}
  0%|          | 2150/1500000 [1:48:09<1063:04:41,  2.56s/it]                                                               0%|          | 2150/1500000 [1:48:09<1063:04:41,  2.56s/it]{'loss': 0.8316, 'grad_norm': 1.3269637823104858, 'learning_rate': 4.294e-07, 'epoch': 2150.0}
  0%|          | 2151/1500000 [1:48:11<1060:52:04,  2.55s/it]                                                               0%|          | 2151/1500000 [1:48:11<1060:52:04,  2.55s/it]{'loss': 0.8312, 'grad_norm': 3.4086103439331055, 'learning_rate': 4.296e-07, 'epoch': 2151.0}
  0%|          | 2152/1500000 [1:48:14<1068:08:19,  2.57s/it]                                                               0%|          | 2152/1500000 [1:48:14<1068:08:19,  2.57s/it]{'loss': 0.8245, 'grad_norm': 2.4609375, 'learning_rate': 4.298e-07, 'epoch': 2152.0}
  0%|          | 2153/1500000 [1:48:17<1099:46:34,  2.64s/it]                                                               0%|          | 2153/1500000 [1:48:17<1099:46:34,  2.64s/it]{'loss': 0.8232, 'grad_norm': 5.33620548248291, 'learning_rate': 4.3e-07, 'epoch': 2153.0}
  0%|          | 2154/1500000 [1:48:19<1094:22:52,  2.63s/it]                                                               0%|          | 2154/1500000 [1:48:19<1094:22:52,  2.63s/it]{'loss': 0.8269, 'grad_norm': 4.104262828826904, 'learning_rate': 4.3020000000000003e-07, 'epoch': 2154.0}
  0%|          | 2155/1500000 [1:48:22<1120:01:17,  2.69s/it]                                                               0%|          | 2155/1500000 [1:48:22<1120:01:17,  2.69s/it]{'loss': 0.8262, 'grad_norm': 3.594606399536133, 'learning_rate': 4.3040000000000004e-07, 'epoch': 2155.0}
  0%|          | 2156/1500000 [1:48:25<1094:44:46,  2.63s/it]                                                               0%|          | 2156/1500000 [1:48:25<1094:44:46,  2.63s/it]{'loss': 0.8044, 'grad_norm': 1.4186729192733765, 'learning_rate': 4.306e-07, 'epoch': 2156.0}
  0%|          | 2157/1500000 [1:48:27<1121:11:00,  2.69s/it]                                                               0%|          | 2157/1500000 [1:48:27<1121:11:00,  2.69s/it]{'loss': 0.8067, 'grad_norm': 2.332829236984253, 'learning_rate': 4.308e-07, 'epoch': 2157.0}
  0%|          | 2158/1500000 [1:48:30<1099:16:31,  2.64s/it]                                                               0%|          | 2158/1500000 [1:48:30<1099:16:31,  2.64s/it]{'loss': 0.8112, 'grad_norm': 1.7662582397460938, 'learning_rate': 4.31e-07, 'epoch': 2158.0}
  0%|          | 2159/1500000 [1:48:32<1090:12:05,  2.62s/it]                                                               0%|          | 2159/1500000 [1:48:32<1090:12:05,  2.62s/it]{'loss': 0.8244, 'grad_norm': 2.176767349243164, 'learning_rate': 4.312e-07, 'epoch': 2159.0}
  0%|          | 2160/1500000 [1:48:35<1079:42:31,  2.60s/it]                                                               0%|          | 2160/1500000 [1:48:35<1079:42:31,  2.60s/it]{'loss': 0.819, 'grad_norm': 1.3349275588989258, 'learning_rate': 4.314e-07, 'epoch': 2160.0}
  0%|          | 2161/1500000 [1:48:38<1076:16:05,  2.59s/it]                                                               0%|          | 2161/1500000 [1:48:38<1076:16:05,  2.59s/it]{'loss': 0.7996, 'grad_norm': 1.7329738140106201, 'learning_rate': 4.3160000000000003e-07, 'epoch': 2161.0}
  0%|          | 2162/1500000 [1:48:40<1064:44:58,  2.56s/it]                                                               0%|          | 2162/1500000 [1:48:40<1064:44:58,  2.56s/it]{'loss': 0.81, 'grad_norm': 2.332139253616333, 'learning_rate': 4.318e-07, 'epoch': 2162.0}
  0%|          | 2163/1500000 [1:48:43<1081:52:38,  2.60s/it]                                                               0%|          | 2163/1500000 [1:48:43<1081:52:38,  2.60s/it]{'loss': 0.8086, 'grad_norm': 4.475978851318359, 'learning_rate': 4.32e-07, 'epoch': 2163.0}
  0%|          | 2164/1500000 [1:48:45<1083:22:49,  2.60s/it]                                                               0%|          | 2164/1500000 [1:48:45<1083:22:49,  2.60s/it]{'loss': 0.8058, 'grad_norm': 3.6869444847106934, 'learning_rate': 4.322e-07, 'epoch': 2164.0}
  0%|          | 2165/1500000 [1:48:48<1069:44:01,  2.57s/it]                                                               0%|          | 2165/1500000 [1:48:48<1069:44:01,  2.57s/it]{'loss': 0.8126, 'grad_norm': 2.430610418319702, 'learning_rate': 4.3240000000000003e-07, 'epoch': 2165.0}
  0%|          | 2166/1500000 [1:48:51<1098:36:56,  2.64s/it]                                                               0%|          | 2166/1500000 [1:48:51<1098:36:56,  2.64s/it]{'loss': 0.8011, 'grad_norm': 1.5437593460083008, 'learning_rate': 4.3260000000000005e-07, 'epoch': 2166.0}
  0%|          | 2167/1500000 [1:48:53<1074:23:41,  2.58s/it]                                                               0%|          | 2167/1500000 [1:48:53<1074:23:41,  2.58s/it]{'loss': 0.8092, 'grad_norm': 2.947873592376709, 'learning_rate': 4.328e-07, 'epoch': 2167.0}
  0%|          | 2168/1500000 [1:48:56<1070:43:46,  2.57s/it]                                                               0%|          | 2168/1500000 [1:48:56<1070:43:46,  2.57s/it]{'loss': 0.7982, 'grad_norm': 1.6691421270370483, 'learning_rate': 4.3299999999999997e-07, 'epoch': 2168.0}
  0%|          | 2169/1500000 [1:48:59<1107:05:46,  2.66s/it]                                                               0%|          | 2169/1500000 [1:48:59<1107:05:46,  2.66s/it]{'loss': 0.8021, 'grad_norm': 2.1944401264190674, 'learning_rate': 4.332e-07, 'epoch': 2169.0}
  0%|          | 2170/1500000 [1:49:01<1121:52:17,  2.70s/it]                                                               0%|          | 2170/1500000 [1:49:01<1121:52:17,  2.70s/it]{'loss': 0.8158, 'grad_norm': 5.308387756347656, 'learning_rate': 4.334e-07, 'epoch': 2170.0}
  0%|          | 2171/1500000 [1:49:04<1100:21:52,  2.64s/it]                                                               0%|          | 2171/1500000 [1:49:04<1100:21:52,  2.64s/it]{'loss': 0.8058, 'grad_norm': 1.856858253479004, 'learning_rate': 4.336e-07, 'epoch': 2171.0}
  0%|          | 2172/1500000 [1:49:06<1094:40:50,  2.63s/it]                                                               0%|          | 2172/1500000 [1:49:06<1094:40:50,  2.63s/it]{'loss': 0.816, 'grad_norm': 2.2733943462371826, 'learning_rate': 4.3380000000000003e-07, 'epoch': 2172.0}
  0%|          | 2173/1500000 [1:49:09<1124:18:40,  2.70s/it]                                                               0%|          | 2173/1500000 [1:49:09<1124:18:40,  2.70s/it]{'loss': 0.7951, 'grad_norm': 1.500968098640442, 'learning_rate': 4.34e-07, 'epoch': 2173.0}
  0%|          | 2174/1500000 [1:49:12<1106:05:45,  2.66s/it]                                                               0%|          | 2174/1500000 [1:49:12<1106:05:45,  2.66s/it]{'loss': 0.8093, 'grad_norm': 1.6631782054901123, 'learning_rate': 4.342e-07, 'epoch': 2174.0}
  0%|          | 2175/1500000 [1:49:14<1097:25:57,  2.64s/it]                                                               0%|          | 2175/1500000 [1:49:14<1097:25:57,  2.64s/it]{'loss': 0.7916, 'grad_norm': 5.138553619384766, 'learning_rate': 4.344e-07, 'epoch': 2175.0}
  0%|          | 2176/1500000 [1:49:17<1085:15:39,  2.61s/it]                                                               0%|          | 2176/1500000 [1:49:17<1085:15:39,  2.61s/it]{'loss': 0.8035, 'grad_norm': 5.657995700836182, 'learning_rate': 4.3460000000000004e-07, 'epoch': 2176.0}
  0%|          | 2177/1500000 [1:49:20<1110:21:14,  2.67s/it]                                                               0%|          | 2177/1500000 [1:49:20<1110:21:14,  2.67s/it]{'loss': 0.8057, 'grad_norm': 2.005052089691162, 'learning_rate': 4.348e-07, 'epoch': 2177.0}
  0%|          | 2178/1500000 [1:49:23<1132:20:50,  2.72s/it]                                                               0%|          | 2178/1500000 [1:49:23<1132:20:50,  2.72s/it]{'loss': 0.7932, 'grad_norm': 3.0275626182556152, 'learning_rate': 4.35e-07, 'epoch': 2178.0}
  0%|          | 2179/1500000 [1:49:25<1145:10:33,  2.75s/it]                                                               0%|          | 2179/1500000 [1:49:26<1145:10:33,  2.75s/it]{'loss': 0.7991, 'grad_norm': 3.689326763153076, 'learning_rate': 4.352e-07, 'epoch': 2179.0}
  0%|          | 2180/1500000 [1:49:28<1128:08:18,  2.71s/it]                                                               0%|          | 2180/1500000 [1:49:28<1128:08:18,  2.71s/it]{'loss': 0.7846, 'grad_norm': 3.6794791221618652, 'learning_rate': 4.354e-07, 'epoch': 2180.0}
  0%|          | 2181/1500000 [1:49:31<1109:22:07,  2.67s/it]                                                               0%|          | 2181/1500000 [1:49:31<1109:22:07,  2.67s/it]{'loss': 0.794, 'grad_norm': 1.5265434980392456, 'learning_rate': 4.356e-07, 'epoch': 2181.0}
  0%|          | 2182/1500000 [1:49:33<1118:21:29,  2.69s/it]                                                               0%|          | 2182/1500000 [1:49:33<1118:21:29,  2.69s/it]{'loss': 0.8022, 'grad_norm': 3.60917592048645, 'learning_rate': 4.358e-07, 'epoch': 2182.0}
  0%|          | 2183/1500000 [1:49:36<1130:27:34,  2.72s/it]                                                               0%|          | 2183/1500000 [1:49:36<1130:27:34,  2.72s/it]{'loss': 0.8007, 'grad_norm': 4.957096099853516, 'learning_rate': 4.3600000000000004e-07, 'epoch': 2183.0}
  0%|          | 2184/1500000 [1:49:39<1128:21:27,  2.71s/it]                                                               0%|          | 2184/1500000 [1:49:39<1128:21:27,  2.71s/it]{'loss': 0.7997, 'grad_norm': 2.22517991065979, 'learning_rate': 4.3620000000000005e-07, 'epoch': 2184.0}
  0%|          | 2185/1500000 [1:49:42<1138:02:02,  2.74s/it]                                                               0%|          | 2185/1500000 [1:49:42<1138:02:02,  2.74s/it]{'loss': 0.7944, 'grad_norm': 1.8358327150344849, 'learning_rate': 4.364e-07, 'epoch': 2185.0}
  0%|          | 2186/1500000 [1:49:44<1148:27:27,  2.76s/it]                                                               0%|          | 2186/1500000 [1:49:44<1148:27:27,  2.76s/it]{'loss': 0.7859, 'grad_norm': 1.3573499917984009, 'learning_rate': 4.366e-07, 'epoch': 2186.0}
  0%|          | 2187/1500000 [1:49:47<1148:42:16,  2.76s/it]                                                               0%|          | 2187/1500000 [1:49:47<1148:42:16,  2.76s/it]{'loss': 0.7948, 'grad_norm': 4.803969383239746, 'learning_rate': 4.368e-07, 'epoch': 2187.0}
  0%|          | 2188/1500000 [1:49:50<1128:57:24,  2.71s/it]                                                               0%|          | 2188/1500000 [1:49:50<1128:57:24,  2.71s/it]{'loss': 0.7888, 'grad_norm': 1.6363000869750977, 'learning_rate': 4.37e-07, 'epoch': 2188.0}
  0%|          | 2189/1500000 [1:49:53<1124:32:07,  2.70s/it]                                                               0%|          | 2189/1500000 [1:49:53<1124:32:07,  2.70s/it]{'loss': 0.7908, 'grad_norm': 1.7591822147369385, 'learning_rate': 4.372e-07, 'epoch': 2189.0}
  0%|          | 2190/1500000 [1:49:55<1111:51:58,  2.67s/it]                                                               0%|          | 2190/1500000 [1:49:55<1111:51:58,  2.67s/it]{'loss': 0.7799, 'grad_norm': 2.9991888999938965, 'learning_rate': 4.374e-07, 'epoch': 2190.0}
  0%|          | 2191/1500000 [1:49:58<1101:48:56,  2.65s/it]                                                               0%|          | 2191/1500000 [1:49:58<1101:48:56,  2.65s/it]{'loss': 0.7913, 'grad_norm': 2.78568959236145, 'learning_rate': 4.376e-07, 'epoch': 2191.0}
  0%|          | 2192/1500000 [1:50:01<1124:11:41,  2.70s/it]                                                               0%|          | 2192/1500000 [1:50:01<1124:11:41,  2.70s/it]{'loss': 0.7845, 'grad_norm': 5.300090312957764, 'learning_rate': 4.378e-07, 'epoch': 2192.0}
  0%|          | 2193/1500000 [1:50:03<1102:25:30,  2.65s/it]                                                               0%|          | 2193/1500000 [1:50:03<1102:25:30,  2.65s/it]{'loss': 0.7866, 'grad_norm': 2.1021206378936768, 'learning_rate': 4.3800000000000003e-07, 'epoch': 2193.0}
  0%|          | 2194/1500000 [1:50:06<1086:50:05,  2.61s/it]                                                               0%|          | 2194/1500000 [1:50:06<1086:50:05,  2.61s/it]{'loss': 0.7813, 'grad_norm': 1.4748152494430542, 'learning_rate': 4.3820000000000005e-07, 'epoch': 2194.0}
  0%|          | 2195/1500000 [1:50:08<1077:02:49,  2.59s/it]                                                               0%|          | 2195/1500000 [1:50:08<1077:02:49,  2.59s/it]{'loss': 0.7871, 'grad_norm': 2.963716506958008, 'learning_rate': 4.384e-07, 'epoch': 2195.0}
  0%|          | 2196/1500000 [1:50:11<1059:40:25,  2.55s/it]                                                               0%|          | 2196/1500000 [1:50:11<1059:40:25,  2.55s/it]{'loss': 0.7889, 'grad_norm': 2.5689375400543213, 'learning_rate': 4.3859999999999997e-07, 'epoch': 2196.0}
  0%|          | 2197/1500000 [1:50:13<1061:14:04,  2.55s/it]                                                               0%|          | 2197/1500000 [1:50:13<1061:14:04,  2.55s/it]{'loss': 0.7766, 'grad_norm': 1.594706654548645, 'learning_rate': 4.388e-07, 'epoch': 2197.0}
  0%|          | 2198/1500000 [1:50:16<1055:36:10,  2.54s/it]                                                               0%|          | 2198/1500000 [1:50:16<1055:36:10,  2.54s/it]{'loss': 0.7712, 'grad_norm': 4.503901958465576, 'learning_rate': 4.39e-07, 'epoch': 2198.0}
  0%|          | 2199/1500000 [1:50:18<1092:58:56,  2.63s/it]                                                               0%|          | 2199/1500000 [1:50:19<1092:58:56,  2.63s/it]{'loss': 0.788, 'grad_norm': 2.6193411350250244, 'learning_rate': 4.392e-07, 'epoch': 2199.0}
  0%|          | 2200/1500000 [1:50:21<1081:10:55,  2.60s/it]                                                               0%|          | 2200/1500000 [1:50:21<1081:10:55,  2.60s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.7737, 'grad_norm': 4.126615524291992, 'learning_rate': 4.3940000000000003e-07, 'epoch': 2200.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.57it/s][A
 43%|████▎     | 3/7 [00:02<00:03,  1.10it/s][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.13s/it][A
 71%|███████▏  | 5/7 [00:05<00:02,  1.39s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.38s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.04s/it][A                                                             
                                             [A  0%|          | 2200/1500000 [1:50:48<1081:10:55,  2.60s/it]
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2000] due to args.save_total_limit
{'eval_loss': 3.3033225536346436, 'eval_wer': 1.0365741802338913, 'eval_cer': 0.7796162130409242, 'eval_runtime': 14.7757, 'eval_samples_per_second': 66.528, 'eval_steps_per_second': 0.474, 'epoch': 2200.0}
  0%|          | 2201/1500000 [1:51:06<6324:26:45, 15.20s/it]                                                               0%|          | 2201/1500000 [1:51:06<6324:26:45, 15.20s/it]{'loss': 0.7873, 'grad_norm': 3.3186097145080566, 'learning_rate': 4.3960000000000005e-07, 'epoch': 2201.0}
  0%|          | 2202/1500000 [1:51:09<4790:26:17, 11.51s/it]                                                               0%|          | 2202/1500000 [1:51:09<4790:26:17, 11.51s/it]{'loss': 0.7807, 'grad_norm': 3.719170093536377, 'learning_rate': 4.398e-07, 'epoch': 2202.0}
  0%|          | 2203/1500000 [1:51:11<3681:14:38,  8.85s/it]                                                               0%|          | 2203/1500000 [1:51:11<3681:14:38,  8.85s/it]{'loss': 0.7856, 'grad_norm': 6.973466396331787, 'learning_rate': 4.4e-07, 'epoch': 2203.0}
  0%|          | 2204/1500000 [1:51:14<2901:27:53,  6.97s/it]                                                               0%|          | 2204/1500000 [1:51:14<2901:27:53,  6.97s/it]{'loss': 0.7659, 'grad_norm': 2.9622552394866943, 'learning_rate': 4.4020000000000004e-07, 'epoch': 2204.0}
  0%|          | 2205/1500000 [1:51:16<2356:57:45,  5.67s/it]                                                               0%|          | 2205/1500000 [1:51:16<2356:57:45,  5.67s/it]{'loss': 0.7769, 'grad_norm': 1.4480502605438232, 'learning_rate': 4.404e-07, 'epoch': 2205.0}
  0%|          | 2206/1500000 [1:51:19<2002:49:04,  4.81s/it]                                                               0%|          | 2206/1500000 [1:51:19<2002:49:04,  4.81s/it]{'loss': 0.7807, 'grad_norm': 5.617516040802002, 'learning_rate': 4.406e-07, 'epoch': 2206.0}
  0%|          | 2207/1500000 [1:51:22<1722:45:10,  4.14s/it]                                                               0%|          | 2207/1500000 [1:51:22<1722:45:10,  4.14s/it]{'loss': 0.7674, 'grad_norm': 1.545650601387024, 'learning_rate': 4.408e-07, 'epoch': 2207.0}
  0%|          | 2208/1500000 [1:51:24<1518:19:43,  3.65s/it]                                                               0%|          | 2208/1500000 [1:51:24<1518:19:43,  3.65s/it]{'loss': 0.7831, 'grad_norm': 1.6625537872314453, 'learning_rate': 4.41e-07, 'epoch': 2208.0}
  0%|          | 2209/1500000 [1:51:27<1430:50:56,  3.44s/it]                                                               0%|          | 2209/1500000 [1:51:27<1430:50:56,  3.44s/it]{'loss': 0.7594, 'grad_norm': 13.190007209777832, 'learning_rate': 4.412e-07, 'epoch': 2209.0}
  0%|          | 2210/1500000 [1:51:30<1322:53:18,  3.18s/it]                                                               0%|          | 2210/1500000 [1:51:30<1322:53:18,  3.18s/it]{'loss': 0.769, 'grad_norm': 1.3059390783309937, 'learning_rate': 4.414e-07, 'epoch': 2210.0}
  0%|          | 2211/1500000 [1:51:32<1238:14:13,  2.98s/it]                                                               0%|          | 2211/1500000 [1:51:32<1238:14:13,  2.98s/it]{'loss': 0.7695, 'grad_norm': 2.483635902404785, 'learning_rate': 4.4160000000000004e-07, 'epoch': 2211.0}
  0%|          | 2212/1500000 [1:51:35<1179:23:06,  2.83s/it]                                                               0%|          | 2212/1500000 [1:51:35<1179:23:06,  2.83s/it]{'loss': 0.7625, 'grad_norm': 3.9736878871917725, 'learning_rate': 4.4180000000000005e-07, 'epoch': 2212.0}
  0%|          | 2213/1500000 [1:51:37<1142:06:21,  2.75s/it]                                                               0%|          | 2213/1500000 [1:51:37<1142:06:21,  2.75s/it]{'loss': 0.777, 'grad_norm': 2.0928444862365723, 'learning_rate': 4.42e-07, 'epoch': 2213.0}
  0%|          | 2214/1500000 [1:51:40<1152:13:40,  2.77s/it]                                                               0%|          | 2214/1500000 [1:51:40<1152:13:40,  2.77s/it]{'loss': 0.7635, 'grad_norm': 2.003969430923462, 'learning_rate': 4.422e-07, 'epoch': 2214.0}
  0%|          | 2215/1500000 [1:51:43<1127:07:02,  2.71s/it]                                                               0%|          | 2215/1500000 [1:51:43<1127:07:02,  2.71s/it]{'loss': 0.759, 'grad_norm': 2.506307363510132, 'learning_rate': 4.424e-07, 'epoch': 2215.0}
  0%|          | 2216/1500000 [1:51:45<1104:44:58,  2.66s/it]                                                               0%|          | 2216/1500000 [1:51:45<1104:44:58,  2.66s/it]{'loss': 0.7729, 'grad_norm': 3.006784677505493, 'learning_rate': 4.426e-07, 'epoch': 2216.0}
  0%|          | 2217/1500000 [1:51:48<1096:57:04,  2.64s/it]                                                               0%|          | 2217/1500000 [1:51:48<1096:57:04,  2.64s/it]{'loss': 0.7665, 'grad_norm': 1.4918264150619507, 'learning_rate': 4.428e-07, 'epoch': 2217.0}
  0%|          | 2218/1500000 [1:51:50<1093:20:58,  2.63s/it]                                                               0%|          | 2218/1500000 [1:51:50<1093:20:58,  2.63s/it]{'loss': 0.7592, 'grad_norm': 9.028396606445312, 'learning_rate': 4.4300000000000004e-07, 'epoch': 2218.0}
  0%|          | 2219/1500000 [1:51:53<1087:45:29,  2.61s/it]                                                               0%|          | 2219/1500000 [1:51:53<1087:45:29,  2.61s/it]{'loss': 0.7651, 'grad_norm': 2.9270753860473633, 'learning_rate': 4.432e-07, 'epoch': 2219.0}
  0%|          | 2220/1500000 [1:51:56<1077:36:49,  2.59s/it]                                                               0%|          | 2220/1500000 [1:51:56<1077:36:49,  2.59s/it]{'loss': 0.7696, 'grad_norm': 2.5624496936798096, 'learning_rate': 4.434e-07, 'epoch': 2220.0}
  0%|          | 2221/1500000 [1:51:58<1068:14:11,  2.57s/it]                                                               0%|          | 2221/1500000 [1:51:58<1068:14:11,  2.57s/it]{'loss': 0.7675, 'grad_norm': 2.465674877166748, 'learning_rate': 4.4360000000000003e-07, 'epoch': 2221.0}
  0%|          | 2222/1500000 [1:52:01<1104:01:14,  2.65s/it]                                                               0%|          | 2222/1500000 [1:52:01<1104:01:14,  2.65s/it]{'loss': 0.763, 'grad_norm': 2.134380578994751, 'learning_rate': 4.4380000000000004e-07, 'epoch': 2222.0}
  0%|          | 2223/1500000 [1:52:03<1083:00:28,  2.60s/it]                                                               0%|          | 2223/1500000 [1:52:03<1083:00:28,  2.60s/it]{'loss': 0.7505, 'grad_norm': 1.7003306150436401, 'learning_rate': 4.44e-07, 'epoch': 2223.0}
  0%|          | 2224/1500000 [1:52:06<1120:08:24,  2.69s/it]                                                               0%|          | 2224/1500000 [1:52:06<1120:08:24,  2.69s/it]{'loss': 0.7604, 'grad_norm': 2.436202049255371, 'learning_rate': 4.4419999999999997e-07, 'epoch': 2224.0}
  0%|          | 2225/1500000 [1:52:09<1139:50:22,  2.74s/it]                                                               0%|          | 2225/1500000 [1:52:09<1139:50:22,  2.74s/it]{'loss': 0.7685, 'grad_norm': 1.9757386445999146, 'learning_rate': 4.444e-07, 'epoch': 2225.0}
  0%|          | 2226/1500000 [1:52:12<1148:58:55,  2.76s/it]                                                               0%|          | 2226/1500000 [1:52:12<1148:58:55,  2.76s/it]{'loss': 0.7562, 'grad_norm': 3.3079910278320312, 'learning_rate': 4.446e-07, 'epoch': 2226.0}
  0%|          | 2227/1500000 [1:52:15<1157:02:08,  2.78s/it]                                                               0%|          | 2227/1500000 [1:52:15<1157:02:08,  2.78s/it]{'loss': 0.7592, 'grad_norm': 2.1430206298828125, 'learning_rate': 4.448e-07, 'epoch': 2227.0}
  0%|          | 2228/1500000 [1:52:17<1135:11:20,  2.73s/it]                                                               0%|          | 2228/1500000 [1:52:17<1135:11:20,  2.73s/it]{'loss': 0.7629, 'grad_norm': 4.539644241333008, 'learning_rate': 4.4500000000000003e-07, 'epoch': 2228.0}
  0%|          | 2229/1500000 [1:52:20<1149:14:14,  2.76s/it]                                                               0%|          | 2229/1500000 [1:52:20<1149:14:14,  2.76s/it]{'loss': 0.7503, 'grad_norm': 1.7959498167037964, 'learning_rate': 4.4520000000000004e-07, 'epoch': 2229.0}
  0%|          | 2230/1500000 [1:52:23<1125:32:43,  2.71s/it]                                                               0%|          | 2230/1500000 [1:52:23<1125:32:43,  2.71s/it]{'loss': 0.7599, 'grad_norm': 1.4462062120437622, 'learning_rate': 4.454e-07, 'epoch': 2230.0}
  0%|          | 2231/1500000 [1:52:25<1094:26:56,  2.63s/it]                                                               0%|          | 2231/1500000 [1:52:25<1094:26:56,  2.63s/it]{'loss': 0.7587, 'grad_norm': 10.890068054199219, 'learning_rate': 4.456e-07, 'epoch': 2231.0}
  0%|          | 2232/1500000 [1:52:28<1077:13:01,  2.59s/it]                                                               0%|          | 2232/1500000 [1:52:28<1077:13:01,  2.59s/it]{'loss': 0.7652, 'grad_norm': 1.517640471458435, 'learning_rate': 4.4580000000000003e-07, 'epoch': 2232.0}
  0%|          | 2233/1500000 [1:52:30<1066:41:57,  2.56s/it]                                                               0%|          | 2233/1500000 [1:52:30<1066:41:57,  2.56s/it]{'loss': 0.7498, 'grad_norm': 1.5371683835983276, 'learning_rate': 4.46e-07, 'epoch': 2233.0}
  0%|          | 2234/1500000 [1:52:33<1102:54:09,  2.65s/it]                                                               0%|          | 2234/1500000 [1:52:33<1102:54:09,  2.65s/it]{'loss': 0.7535, 'grad_norm': 1.3940410614013672, 'learning_rate': 4.462e-07, 'epoch': 2234.0}
  0%|          | 2235/1500000 [1:52:36<1073:03:52,  2.58s/it]                                                               0%|          | 2235/1500000 [1:52:36<1073:03:52,  2.58s/it]{'loss': 0.7569, 'grad_norm': 1.7693754434585571, 'learning_rate': 4.4640000000000003e-07, 'epoch': 2235.0}
  0%|          | 2236/1500000 [1:52:38<1085:10:40,  2.61s/it]                                                               0%|          | 2236/1500000 [1:52:38<1085:10:40,  2.61s/it]{'loss': 0.7447, 'grad_norm': 2.072941303253174, 'learning_rate': 4.466e-07, 'epoch': 2236.0}
  0%|          | 2237/1500000 [1:52:41<1106:21:50,  2.66s/it]                                                               0%|          | 2237/1500000 [1:52:41<1106:21:50,  2.66s/it]{'loss': 0.7438, 'grad_norm': 24.580886840820312, 'learning_rate': 4.468e-07, 'epoch': 2237.0}
  0%|          | 2238/1500000 [1:52:44<1090:11:36,  2.62s/it]                                                               0%|          | 2238/1500000 [1:52:44<1090:11:36,  2.62s/it]{'loss': 0.7596, 'grad_norm': 1.3874359130859375, 'learning_rate': 4.47e-07, 'epoch': 2238.0}
  0%|          | 2239/1500000 [1:52:46<1078:15:16,  2.59s/it]                                                               0%|          | 2239/1500000 [1:52:46<1078:15:16,  2.59s/it]{'loss': 0.7357, 'grad_norm': 2.880248785018921, 'learning_rate': 4.4720000000000003e-07, 'epoch': 2239.0}
  0%|          | 2240/1500000 [1:52:49<1113:44:34,  2.68s/it]                                                               0%|          | 2240/1500000 [1:52:49<1113:44:34,  2.68s/it]{'loss': 0.7523, 'grad_norm': 2.790074586868286, 'learning_rate': 4.4740000000000005e-07, 'epoch': 2240.0}
  0%|          | 2241/1500000 [1:52:52<1099:19:39,  2.64s/it]                                                               0%|          | 2241/1500000 [1:52:52<1099:19:39,  2.64s/it]{'loss': 0.7554, 'grad_norm': 3.884073257446289, 'learning_rate': 4.476e-07, 'epoch': 2241.0}
  0%|          | 2242/1500000 [1:52:54<1120:11:30,  2.69s/it]                                                               0%|          | 2242/1500000 [1:52:54<1120:11:30,  2.69s/it]{'loss': 0.7629, 'grad_norm': 1.8600518703460693, 'learning_rate': 4.4779999999999997e-07, 'epoch': 2242.0}
  0%|          | 2243/1500000 [1:52:57<1142:02:18,  2.74s/it]                                                               0%|          | 2243/1500000 [1:52:57<1142:02:18,  2.74s/it]{'loss': 0.7349, 'grad_norm': 3.113145351409912, 'learning_rate': 4.48e-07, 'epoch': 2243.0}
  0%|          | 2244/1500000 [1:53:00<1116:05:28,  2.68s/it]                                                               0%|          | 2244/1500000 [1:53:00<1116:05:28,  2.68s/it]{'loss': 0.7435, 'grad_norm': 3.5817131996154785, 'learning_rate': 4.482e-07, 'epoch': 2244.0}
  0%|          | 2245/1500000 [1:53:03<1173:12:46,  2.82s/it]                                                               0%|          | 2245/1500000 [1:53:03<1173:12:46,  2.82s/it]{'loss': 0.7389, 'grad_norm': 3.5709657669067383, 'learning_rate': 4.484e-07, 'epoch': 2245.0}
  0%|          | 2246/1500000 [1:53:06<1175:56:12,  2.83s/it]                                                               0%|          | 2246/1500000 [1:53:06<1175:56:12,  2.83s/it]{'loss': 0.7471, 'grad_norm': 2.170042037963867, 'learning_rate': 4.4860000000000003e-07, 'epoch': 2246.0}
  0%|          | 2247/1500000 [1:53:08<1127:05:01,  2.71s/it]                                                               0%|          | 2247/1500000 [1:53:08<1127:05:01,  2.71s/it]{'loss': 0.7426, 'grad_norm': 2.237793207168579, 'learning_rate': 4.488e-07, 'epoch': 2247.0}
  0%|          | 2248/1500000 [1:53:11<1146:41:32,  2.76s/it]                                                               0%|          | 2248/1500000 [1:53:11<1146:41:32,  2.76s/it]{'loss': 0.7328, 'grad_norm': 2.5807390213012695, 'learning_rate': 4.49e-07, 'epoch': 2248.0}
  0%|          | 2249/1500000 [1:53:14<1124:18:38,  2.70s/it]                                                               0%|          | 2249/1500000 [1:53:14<1124:18:38,  2.70s/it]{'loss': 0.7333, 'grad_norm': 1.9543763399124146, 'learning_rate': 4.492e-07, 'epoch': 2249.0}
  0%|          | 2250/1500000 [1:53:16<1102:06:59,  2.65s/it]                                                               0%|          | 2250/1500000 [1:53:16<1102:06:59,  2.65s/it]{'loss': 0.732, 'grad_norm': 3.6094748973846436, 'learning_rate': 4.4940000000000004e-07, 'epoch': 2250.0}
  0%|          | 2251/1500000 [1:53:19<1091:12:54,  2.62s/it]                                                               0%|          | 2251/1500000 [1:53:19<1091:12:54,  2.62s/it]{'loss': 0.7259, 'grad_norm': 1.869676947593689, 'learning_rate': 4.496e-07, 'epoch': 2251.0}
  0%|          | 2252/1500000 [1:53:21<1082:13:14,  2.60s/it]                                                               0%|          | 2252/1500000 [1:53:21<1082:13:14,  2.60s/it]{'loss': 0.7296, 'grad_norm': 6.118420124053955, 'learning_rate': 4.4979999999999996e-07, 'epoch': 2252.0}
  0%|          | 2253/1500000 [1:53:24<1107:56:47,  2.66s/it]                                                               0%|          | 2253/1500000 [1:53:24<1107:56:47,  2.66s/it]{'loss': 0.7336, 'grad_norm': 5.398498058319092, 'learning_rate': 4.5e-07, 'epoch': 2253.0}
  0%|          | 2254/1500000 [1:53:27<1088:47:16,  2.62s/it]                                                               0%|          | 2254/1500000 [1:53:27<1088:47:16,  2.62s/it]{'loss': 0.7313, 'grad_norm': 1.6324374675750732, 'learning_rate': 4.502e-07, 'epoch': 2254.0}
  0%|          | 2255/1500000 [1:53:29<1111:17:04,  2.67s/it]                                                               0%|          | 2255/1500000 [1:53:29<1111:17:04,  2.67s/it]{'loss': 0.7197, 'grad_norm': 3.2084298133850098, 'learning_rate': 4.504e-07, 'epoch': 2255.0}
  0%|          | 2256/1500000 [1:53:32<1131:53:24,  2.72s/it]                                                               0%|          | 2256/1500000 [1:53:32<1131:53:24,  2.72s/it]{'loss': 0.7288, 'grad_norm': 2.5471818447113037, 'learning_rate': 4.506e-07, 'epoch': 2256.0}
  0%|          | 2257/1500000 [1:53:35<1111:45:59,  2.67s/it]                                                               0%|          | 2257/1500000 [1:53:35<1111:45:59,  2.67s/it]{'loss': 0.7468, 'grad_norm': 2.2003960609436035, 'learning_rate': 4.5080000000000004e-07, 'epoch': 2257.0}
  0%|          | 2258/1500000 [1:53:37<1099:05:26,  2.64s/it]                                                               0%|          | 2258/1500000 [1:53:37<1099:05:26,  2.64s/it]{'loss': 0.725, 'grad_norm': 1.6471728086471558, 'learning_rate': 4.51e-07, 'epoch': 2258.0}
  0%|          | 2259/1500000 [1:53:40<1123:08:37,  2.70s/it]                                                               0%|          | 2259/1500000 [1:53:40<1123:08:37,  2.70s/it]{'loss': 0.7212, 'grad_norm': 21.88471794128418, 'learning_rate': 4.512e-07, 'epoch': 2259.0}
  0%|          | 2260/1500000 [1:53:43<1139:16:14,  2.74s/it]                                                               0%|          | 2260/1500000 [1:53:43<1139:16:14,  2.74s/it]{'loss': 0.7298, 'grad_norm': 5.392831802368164, 'learning_rate': 4.5140000000000003e-07, 'epoch': 2260.0}
  0%|          | 2261/1500000 [1:53:46<1119:51:28,  2.69s/it]                                                               0%|          | 2261/1500000 [1:53:46<1119:51:28,  2.69s/it]{'loss': 0.7382, 'grad_norm': 1.5418466329574585, 'learning_rate': 4.516e-07, 'epoch': 2261.0}
  0%|          | 2262/1500000 [1:53:48<1101:30:41,  2.65s/it]                                                               0%|          | 2262/1500000 [1:53:48<1101:30:41,  2.65s/it]{'loss': 0.7261, 'grad_norm': 2.0319511890411377, 'learning_rate': 4.518e-07, 'epoch': 2262.0}
  0%|          | 2263/1500000 [1:53:51<1089:07:51,  2.62s/it]                                                               0%|          | 2263/1500000 [1:53:51<1089:07:51,  2.62s/it]{'loss': 0.7331, 'grad_norm': 1.5806328058242798, 'learning_rate': 4.52e-07, 'epoch': 2263.0}
  0%|          | 2264/1500000 [1:53:53<1089:57:14,  2.62s/it]                                                               0%|          | 2264/1500000 [1:53:53<1089:57:14,  2.62s/it]{'loss': 0.7096, 'grad_norm': 3.636739730834961, 'learning_rate': 4.522e-07, 'epoch': 2264.0}
  0%|          | 2265/1500000 [1:53:56<1112:50:06,  2.67s/it]                                                               0%|          | 2265/1500000 [1:53:56<1112:50:06,  2.67s/it]{'loss': 0.7185, 'grad_norm': 1.4124600887298584, 'learning_rate': 4.524e-07, 'epoch': 2265.0}
  0%|          | 2266/1500000 [1:53:59<1099:41:33,  2.64s/it]                                                               0%|          | 2266/1500000 [1:53:59<1099:41:33,  2.64s/it]{'loss': 0.7232, 'grad_norm': 4.0552873611450195, 'learning_rate': 4.526e-07, 'epoch': 2266.0}
  0%|          | 2267/1500000 [1:54:01<1086:31:07,  2.61s/it]                                                               0%|          | 2267/1500000 [1:54:01<1086:31:07,  2.61s/it]{'loss': 0.7184, 'grad_norm': 2.453068733215332, 'learning_rate': 4.5280000000000003e-07, 'epoch': 2267.0}
  0%|          | 2268/1500000 [1:54:04<1095:52:46,  2.63s/it]                                                               0%|          | 2268/1500000 [1:54:04<1095:52:46,  2.63s/it]{'loss': 0.7225, 'grad_norm': 2.1318016052246094, 'learning_rate': 4.5300000000000005e-07, 'epoch': 2268.0}
  0%|          | 2269/1500000 [1:54:07<1128:25:15,  2.71s/it]                                                               0%|          | 2269/1500000 [1:54:07<1128:25:15,  2.71s/it]{'loss': 0.7167, 'grad_norm': 1.9038218259811401, 'learning_rate': 4.532e-07, 'epoch': 2269.0}
  0%|          | 2270/1500000 [1:54:10<1144:55:53,  2.75s/it]                                                               0%|          | 2270/1500000 [1:54:10<1144:55:53,  2.75s/it]{'loss': 0.7069, 'grad_norm': 2.206310510635376, 'learning_rate': 4.5339999999999997e-07, 'epoch': 2270.0}
  0%|          | 2271/1500000 [1:54:12<1119:59:29,  2.69s/it]                                                               0%|          | 2271/1500000 [1:54:12<1119:59:29,  2.69s/it]{'loss': 0.7192, 'grad_norm': 2.1407787799835205, 'learning_rate': 4.536e-07, 'epoch': 2271.0}
  0%|          | 2272/1500000 [1:54:15<1102:42:19,  2.65s/it]                                                               0%|          | 2272/1500000 [1:54:15<1102:42:19,  2.65s/it]{'loss': 0.7251, 'grad_norm': 1.4541765451431274, 'learning_rate': 4.538e-07, 'epoch': 2272.0}
  0%|          | 2273/1500000 [1:54:17<1116:04:26,  2.68s/it]                                                               0%|          | 2273/1500000 [1:54:17<1116:04:26,  2.68s/it]{'loss': 0.7136, 'grad_norm': 2.144934892654419, 'learning_rate': 4.54e-07, 'epoch': 2273.0}
  0%|          | 2274/1500000 [1:54:21<1179:43:33,  2.84s/it]                                                               0%|          | 2274/1500000 [1:54:21<1179:43:33,  2.84s/it]{'loss': 0.7235, 'grad_norm': 1.8388056755065918, 'learning_rate': 4.5420000000000003e-07, 'epoch': 2274.0}
  0%|          | 2275/1500000 [1:54:23<1147:24:44,  2.76s/it]                                                               0%|          | 2275/1500000 [1:54:23<1147:24:44,  2.76s/it]{'loss': 0.7093, 'grad_norm': 6.4036970138549805, 'learning_rate': 4.544e-07, 'epoch': 2275.0}
  0%|          | 2276/1500000 [1:54:26<1111:52:46,  2.67s/it]                                                               0%|          | 2276/1500000 [1:54:26<1111:52:46,  2.67s/it]{'loss': 0.7074, 'grad_norm': 1.7848491668701172, 'learning_rate': 4.546e-07, 'epoch': 2276.0}
  0%|          | 2277/1500000 [1:54:28<1095:00:04,  2.63s/it]                                                               0%|          | 2277/1500000 [1:54:28<1095:00:04,  2.63s/it]{'loss': 0.7174, 'grad_norm': 4.248115539550781, 'learning_rate': 4.548e-07, 'epoch': 2277.0}
  0%|          | 2278/1500000 [1:54:31<1083:03:51,  2.60s/it]                                                               0%|          | 2278/1500000 [1:54:31<1083:03:51,  2.60s/it]{'loss': 0.7089, 'grad_norm': 1.9860458374023438, 'learning_rate': 4.5500000000000004e-07, 'epoch': 2278.0}
  0%|          | 2279/1500000 [1:54:33<1073:14:32,  2.58s/it]                                                               0%|          | 2279/1500000 [1:54:33<1073:14:32,  2.58s/it]{'loss': 0.7115, 'grad_norm': 1.5446962118148804, 'learning_rate': 4.552e-07, 'epoch': 2279.0}
  0%|          | 2280/1500000 [1:54:36<1069:27:25,  2.57s/it]                                                               0%|          | 2280/1500000 [1:54:36<1069:27:25,  2.57s/it]{'loss': 0.6982, 'grad_norm': 1.782869577407837, 'learning_rate': 4.554e-07, 'epoch': 2280.0}
  0%|          | 2281/1500000 [1:54:38<1076:07:39,  2.59s/it]                                                               0%|          | 2281/1500000 [1:54:39<1076:07:39,  2.59s/it]{'loss': 0.7121, 'grad_norm': 2.779433012008667, 'learning_rate': 4.556e-07, 'epoch': 2281.0}
  0%|          | 2282/1500000 [1:54:41<1078:32:15,  2.59s/it]                                                               0%|          | 2282/1500000 [1:54:41<1078:32:15,  2.59s/it]{'loss': 0.7008, 'grad_norm': 3.6256847381591797, 'learning_rate': 4.558e-07, 'epoch': 2282.0}
  0%|          | 2283/1500000 [1:54:44<1075:27:13,  2.59s/it]                                                               0%|          | 2283/1500000 [1:54:44<1075:27:13,  2.59s/it]{'loss': 0.6986, 'grad_norm': 2.2102999687194824, 'learning_rate': 4.56e-07, 'epoch': 2283.0}
  0%|          | 2284/1500000 [1:54:46<1071:46:05,  2.58s/it]                                                               0%|          | 2284/1500000 [1:54:46<1071:46:05,  2.58s/it]{'loss': 0.6971, 'grad_norm': 1.3968887329101562, 'learning_rate': 4.562e-07, 'epoch': 2284.0}
  0%|          | 2285/1500000 [1:54:49<1058:24:57,  2.54s/it]                                                               0%|          | 2285/1500000 [1:54:49<1058:24:57,  2.54s/it]{'loss': 0.7061, 'grad_norm': 1.7214337587356567, 'learning_rate': 4.5640000000000004e-07, 'epoch': 2285.0}
  0%|          | 2286/1500000 [1:54:51<1061:27:08,  2.55s/it]                                                               0%|          | 2286/1500000 [1:54:51<1061:27:08,  2.55s/it]{'loss': 0.6959, 'grad_norm': 11.381088256835938, 'learning_rate': 4.566e-07, 'epoch': 2286.0}
  0%|          | 2287/1500000 [1:54:54<1060:37:41,  2.55s/it]                                                               0%|          | 2287/1500000 [1:54:54<1060:37:41,  2.55s/it]{'loss': 0.7098, 'grad_norm': 1.4919843673706055, 'learning_rate': 4.568e-07, 'epoch': 2287.0}
  0%|          | 2288/1500000 [1:54:56<1070:05:43,  2.57s/it]                                                               0%|          | 2288/1500000 [1:54:56<1070:05:43,  2.57s/it]{'loss': 0.7079, 'grad_norm': 2.5778281688690186, 'learning_rate': 4.5700000000000003e-07, 'epoch': 2288.0}
  0%|          | 2289/1500000 [1:54:59<1064:27:07,  2.56s/it]                                                               0%|          | 2289/1500000 [1:54:59<1064:27:07,  2.56s/it]{'loss': 0.7149, 'grad_norm': 1.6213006973266602, 'learning_rate': 4.572e-07, 'epoch': 2289.0}
  0%|          | 2290/1500000 [1:55:02<1108:12:15,  2.66s/it]                                                               0%|          | 2290/1500000 [1:55:02<1108:12:15,  2.66s/it]{'loss': 0.7006, 'grad_norm': 11.164752006530762, 'learning_rate': 4.574e-07, 'epoch': 2290.0}
  0%|          | 2291/1500000 [1:55:05<1133:56:54,  2.73s/it]                                                               0%|          | 2291/1500000 [1:55:05<1133:56:54,  2.73s/it]{'loss': 0.6971, 'grad_norm': 1.8824141025543213, 'learning_rate': 4.576e-07, 'epoch': 2291.0}
  0%|          | 2292/1500000 [1:55:07<1114:35:00,  2.68s/it]                                                               0%|          | 2292/1500000 [1:55:07<1114:35:00,  2.68s/it]{'loss': 0.6979, 'grad_norm': 2.2282001972198486, 'learning_rate': 4.578e-07, 'epoch': 2292.0}
  0%|          | 2293/1500000 [1:55:10<1092:16:29,  2.63s/it]                                                               0%|          | 2293/1500000 [1:55:10<1092:16:29,  2.63s/it]{'loss': 0.699, 'grad_norm': 1.7108272314071655, 'learning_rate': 4.58e-07, 'epoch': 2293.0}
  0%|          | 2294/1500000 [1:55:12<1094:05:36,  2.63s/it]                                                               0%|          | 2294/1500000 [1:55:12<1094:05:36,  2.63s/it]{'loss': 0.6931, 'grad_norm': 1.3992658853530884, 'learning_rate': 4.582e-07, 'epoch': 2294.0}
  0%|          | 2295/1500000 [1:55:15<1086:37:03,  2.61s/it]                                                               0%|          | 2295/1500000 [1:55:15<1086:37:03,  2.61s/it]{'loss': 0.6894, 'grad_norm': 4.707170486450195, 'learning_rate': 4.5840000000000003e-07, 'epoch': 2295.0}
  0%|          | 2296/1500000 [1:55:18<1083:42:26,  2.60s/it]                                                               0%|          | 2296/1500000 [1:55:18<1083:42:26,  2.60s/it]{'loss': 0.7107, 'grad_norm': 2.3549554347991943, 'learning_rate': 4.5860000000000004e-07, 'epoch': 2296.0}
  0%|          | 2297/1500000 [1:55:20<1080:45:04,  2.60s/it]                                                               0%|          | 2297/1500000 [1:55:20<1080:45:04,  2.60s/it]{'loss': 0.6975, 'grad_norm': 4.577586650848389, 'learning_rate': 4.5880000000000006e-07, 'epoch': 2297.0}
  0%|          | 2298/1500000 [1:55:23<1105:53:57,  2.66s/it]                                                               0%|          | 2298/1500000 [1:55:23<1105:53:57,  2.66s/it]{'loss': 0.6973, 'grad_norm': 9.839932441711426, 'learning_rate': 4.5899999999999997e-07, 'epoch': 2298.0}
  0%|          | 2299/1500000 [1:55:26<1091:19:20,  2.62s/it]                                                               0%|          | 2299/1500000 [1:55:26<1091:19:20,  2.62s/it]{'loss': 0.6893, 'grad_norm': 1.4723645448684692, 'learning_rate': 4.592e-07, 'epoch': 2299.0}
  0%|          | 2300/1500000 [1:55:28<1118:22:11,  2.69s/it]                                                               0%|          | 2300/1500000 [1:55:28<1118:22:11,  2.69s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.6932, 'grad_norm': 2.7017979621887207, 'learning_rate': 4.594e-07, 'epoch': 2300.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.11it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.21s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.32s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.29s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.48s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.11s/it][A                                                             
                                             [A  0%|          | 2300/1500000 [1:56:12<1118:22:11,  2.69s/it]
100%|██████████| 7/7 [00:08<00:00,  1.11s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2100] due to args.save_total_limit
{'eval_loss': 3.2972259521484375, 'eval_wer': 1.0559504700756708, 'eval_cer': 0.7657137262580771, 'eval_runtime': 16.7907, 'eval_samples_per_second': 58.544, 'eval_steps_per_second': 0.417, 'epoch': 2300.0}
  0%|          | 2301/1500000 [1:56:29<8351:49:51, 20.08s/it]                                                               0%|          | 2301/1500000 [1:56:29<8351:49:51, 20.08s/it]{'loss': 0.6955, 'grad_norm': 3.075721025466919, 'learning_rate': 4.596e-07, 'epoch': 2301.0}
  0%|          | 2302/1500000 [1:56:32<6173:56:54, 14.84s/it]                                                               0%|          | 2302/1500000 [1:56:32<6173:56:54, 14.84s/it]{'loss': 0.6829, 'grad_norm': 4.489332675933838, 'learning_rate': 4.5980000000000003e-07, 'epoch': 2302.0}
  0%|          | 2303/1500000 [1:56:34<4647:00:44, 11.17s/it]                                                               0%|          | 2303/1500000 [1:56:34<4647:00:44, 11.17s/it]{'loss': 0.6936, 'grad_norm': 2.9310193061828613, 'learning_rate': 4.6e-07, 'epoch': 2303.0}
  0%|          | 2304/1500000 [1:56:37<3572:42:19,  8.59s/it]                                                               0%|          | 2304/1500000 [1:56:37<3572:42:19,  8.59s/it]{'loss': 0.6937, 'grad_norm': 1.8320516347885132, 'learning_rate': 4.602e-07, 'epoch': 2304.0}
  0%|          | 2305/1500000 [1:56:39<2823:16:07,  6.79s/it]                                                               0%|          | 2305/1500000 [1:56:39<2823:16:07,  6.79s/it]{'loss': 0.6916, 'grad_norm': 1.4808564186096191, 'learning_rate': 4.604e-07, 'epoch': 2305.0}
  0%|          | 2306/1500000 [1:56:42<2317:59:31,  5.57s/it]                                                               0%|          | 2306/1500000 [1:56:42<2317:59:31,  5.57s/it]{'loss': 0.6827, 'grad_norm': 1.462565302848816, 'learning_rate': 4.6060000000000003e-07, 'epoch': 2306.0}
  0%|          | 2307/1500000 [1:56:45<1943:04:04,  4.67s/it]                                                               0%|          | 2307/1500000 [1:56:45<1943:04:04,  4.67s/it]{'loss': 0.6765, 'grad_norm': 2.418161392211914, 'learning_rate': 4.608e-07, 'epoch': 2307.0}
  0%|          | 2308/1500000 [1:56:47<1681:04:57,  4.04s/it]                                                               0%|          | 2308/1500000 [1:56:47<1681:04:57,  4.04s/it]{'loss': 0.6841, 'grad_norm': 14.16484260559082, 'learning_rate': 4.61e-07, 'epoch': 2308.0}
  0%|          | 2309/1500000 [1:56:50<1499:05:55,  3.60s/it]                                                               0%|          | 2309/1500000 [1:56:50<1499:05:55,  3.60s/it]{'loss': 0.6923, 'grad_norm': 2.0094211101531982, 'learning_rate': 4.612e-07, 'epoch': 2309.0}
  0%|          | 2310/1500000 [1:56:53<1391:49:10,  3.35s/it]                                                               0%|          | 2310/1500000 [1:56:53<1391:49:10,  3.35s/it]{'loss': 0.6764, 'grad_norm': 1.487707495689392, 'learning_rate': 4.614e-07, 'epoch': 2310.0}
  0%|          | 2311/1500000 [1:56:55<1303:10:56,  3.13s/it]                                                               0%|          | 2311/1500000 [1:56:55<1303:10:56,  3.13s/it]{'loss': 0.6694, 'grad_norm': 1.5884517431259155, 'learning_rate': 4.616e-07, 'epoch': 2311.0}
  0%|          | 2312/1500000 [1:56:58<1238:22:40,  2.98s/it]                                                               0%|          | 2312/1500000 [1:56:58<1238:22:40,  2.98s/it]{'loss': 0.6713, 'grad_norm': 5.2421040534973145, 'learning_rate': 4.618e-07, 'epoch': 2312.0}
  0%|          | 2313/1500000 [1:57:01<1218:59:33,  2.93s/it]                                                               0%|          | 2313/1500000 [1:57:01<1218:59:33,  2.93s/it]{'loss': 0.6803, 'grad_norm': 1.7782131433486938, 'learning_rate': 4.6200000000000003e-07, 'epoch': 2313.0}
  0%|          | 2314/1500000 [1:57:03<1164:36:30,  2.80s/it]                                                               0%|          | 2314/1500000 [1:57:03<1164:36:30,  2.80s/it]{'loss': 0.6733, 'grad_norm': 3.289344072341919, 'learning_rate': 4.6220000000000005e-07, 'epoch': 2314.0}
  0%|          | 2315/1500000 [1:57:06<1162:34:06,  2.79s/it]                                                               0%|          | 2315/1500000 [1:57:06<1162:34:06,  2.79s/it]{'loss': 0.688, 'grad_norm': 1.862274408340454, 'learning_rate': 4.624e-07, 'epoch': 2315.0}
  0%|          | 2316/1500000 [1:57:09<1163:45:44,  2.80s/it]                                                               0%|          | 2316/1500000 [1:57:09<1163:45:44,  2.80s/it]{'loss': 0.6849, 'grad_norm': 2.0794897079467773, 'learning_rate': 4.626e-07, 'epoch': 2316.0}
  0%|          | 2317/1500000 [1:57:12<1161:46:45,  2.79s/it]                                                               0%|          | 2317/1500000 [1:57:12<1161:46:45,  2.79s/it]{'loss': 0.685, 'grad_norm': 3.613661766052246, 'learning_rate': 4.628e-07, 'epoch': 2317.0}
  0%|          | 2318/1500000 [1:57:14<1160:26:26,  2.79s/it]                                                               0%|          | 2318/1500000 [1:57:14<1160:26:26,  2.79s/it]{'loss': 0.6806, 'grad_norm': 7.980922698974609, 'learning_rate': 4.63e-07, 'epoch': 2318.0}
  0%|          | 2319/1500000 [1:57:17<1166:56:05,  2.80s/it]                                                               0%|          | 2319/1500000 [1:57:17<1166:56:05,  2.80s/it]{'loss': 0.6739, 'grad_norm': 1.4381747245788574, 'learning_rate': 4.632e-07, 'epoch': 2319.0}
  0%|          | 2320/1500000 [1:57:20<1134:16:44,  2.73s/it]                                                               0%|          | 2320/1500000 [1:57:20<1134:16:44,  2.73s/it]{'loss': 0.6705, 'grad_norm': 3.115051746368408, 'learning_rate': 4.634e-07, 'epoch': 2320.0}
  0%|          | 2321/1500000 [1:57:23<1151:44:13,  2.77s/it]                                                               0%|          | 2321/1500000 [1:57:23<1151:44:13,  2.77s/it]{'loss': 0.6719, 'grad_norm': 14.08726692199707, 'learning_rate': 4.636e-07, 'epoch': 2321.0}
  0%|          | 2322/1500000 [1:57:25<1120:20:46,  2.69s/it]                                                               0%|          | 2322/1500000 [1:57:25<1120:20:46,  2.69s/it]{'loss': 0.6709, 'grad_norm': 1.8655426502227783, 'learning_rate': 4.638e-07, 'epoch': 2322.0}
  0%|          | 2323/1500000 [1:57:28<1100:52:10,  2.65s/it]                                                               0%|          | 2323/1500000 [1:57:28<1100:52:10,  2.65s/it]{'loss': 0.6769, 'grad_norm': 3.1935269832611084, 'learning_rate': 4.64e-07, 'epoch': 2323.0}
  0%|          | 2324/1500000 [1:57:30<1099:07:20,  2.64s/it]                                                               0%|          | 2324/1500000 [1:57:30<1099:07:20,  2.64s/it]{'loss': 0.6696, 'grad_norm': 1.8182402849197388, 'learning_rate': 4.6420000000000004e-07, 'epoch': 2324.0}
  0%|          | 2325/1500000 [1:57:33<1090:06:13,  2.62s/it]                                                               0%|          | 2325/1500000 [1:57:33<1090:06:13,  2.62s/it]{'loss': 0.6673, 'grad_norm': 3.108494997024536, 'learning_rate': 4.6440000000000006e-07, 'epoch': 2325.0}
  0%|          | 2326/1500000 [1:57:35<1076:47:25,  2.59s/it]                                                               0%|          | 2326/1500000 [1:57:35<1076:47:25,  2.59s/it]{'loss': 0.6639, 'grad_norm': 3.397751808166504, 'learning_rate': 4.6459999999999996e-07, 'epoch': 2326.0}
  0%|          | 2327/1500000 [1:57:38<1072:36:45,  2.58s/it]                                                               0%|          | 2327/1500000 [1:57:38<1072:36:45,  2.58s/it]{'loss': 0.6674, 'grad_norm': 14.201748847961426, 'learning_rate': 4.648e-07, 'epoch': 2327.0}
  0%|          | 2328/1500000 [1:57:40<1072:40:19,  2.58s/it]                                                               0%|          | 2328/1500000 [1:57:40<1072:40:19,  2.58s/it]{'loss': 0.6677, 'grad_norm': 3.2697227001190186, 'learning_rate': 4.65e-07, 'epoch': 2328.0}
  0%|          | 2329/1500000 [1:57:43<1090:26:06,  2.62s/it]                                                               0%|          | 2329/1500000 [1:57:43<1090:26:06,  2.62s/it]{'loss': 0.6652, 'grad_norm': 5.099916934967041, 'learning_rate': 4.652e-07, 'epoch': 2329.0}
  0%|          | 2330/1500000 [1:57:46<1075:24:11,  2.58s/it]                                                               0%|          | 2330/1500000 [1:57:46<1075:24:11,  2.58s/it]{'loss': 0.6665, 'grad_norm': 6.357182502746582, 'learning_rate': 4.654e-07, 'epoch': 2330.0}
  0%|          | 2331/1500000 [1:57:48<1069:43:51,  2.57s/it]                                                               0%|          | 2331/1500000 [1:57:48<1069:43:51,  2.57s/it]{'loss': 0.6513, 'grad_norm': 2.012186050415039, 'learning_rate': 4.6560000000000004e-07, 'epoch': 2331.0}
  0%|          | 2332/1500000 [1:57:51<1072:26:20,  2.58s/it]                                                               0%|          | 2332/1500000 [1:57:51<1072:26:20,  2.58s/it]{'loss': 0.6601, 'grad_norm': 5.638890743255615, 'learning_rate': 4.658e-07, 'epoch': 2332.0}
  0%|          | 2333/1500000 [1:57:53<1072:18:30,  2.58s/it]                                                               0%|          | 2333/1500000 [1:57:53<1072:18:30,  2.58s/it]{'loss': 0.6631, 'grad_norm': 3.645872116088867, 'learning_rate': 4.66e-07, 'epoch': 2333.0}
  0%|          | 2334/1500000 [1:57:56<1061:47:58,  2.55s/it]                                                               0%|          | 2334/1500000 [1:57:56<1061:47:58,  2.55s/it]{'loss': 0.6575, 'grad_norm': 1.6700109243392944, 'learning_rate': 4.6620000000000003e-07, 'epoch': 2334.0}
  0%|          | 2335/1500000 [1:57:58<1060:41:09,  2.55s/it]                                                               0%|          | 2335/1500000 [1:57:58<1060:41:09,  2.55s/it]{'loss': 0.6741, 'grad_norm': 4.939969539642334, 'learning_rate': 4.6640000000000005e-07, 'epoch': 2335.0}
  0%|          | 2336/1500000 [1:58:01<1070:22:47,  2.57s/it]                                                               0%|          | 2336/1500000 [1:58:01<1070:22:47,  2.57s/it]{'loss': 0.6589, 'grad_norm': 3.9200708866119385, 'learning_rate': 4.666e-07, 'epoch': 2336.0}
  0%|          | 2337/1500000 [1:58:04<1068:59:16,  2.57s/it]                                                               0%|          | 2337/1500000 [1:58:04<1068:59:16,  2.57s/it]{'loss': 0.6548, 'grad_norm': 1.608599066734314, 'learning_rate': 4.6679999999999997e-07, 'epoch': 2337.0}
  0%|          | 2338/1500000 [1:58:06<1071:25:38,  2.58s/it]                                                               0%|          | 2338/1500000 [1:58:06<1071:25:38,  2.58s/it]{'loss': 0.6546, 'grad_norm': 1.7574814558029175, 'learning_rate': 4.67e-07, 'epoch': 2338.0}
  0%|          | 2339/1500000 [1:58:09<1065:21:22,  2.56s/it]                                                               0%|          | 2339/1500000 [1:58:09<1065:21:22,  2.56s/it]{'loss': 0.6541, 'grad_norm': 1.8951928615570068, 'learning_rate': 4.672e-07, 'epoch': 2339.0}
  0%|          | 2340/1500000 [1:58:11<1065:15:25,  2.56s/it]                                                               0%|          | 2340/1500000 [1:58:11<1065:15:25,  2.56s/it]{'loss': 0.6553, 'grad_norm': 4.104215621948242, 'learning_rate': 4.674e-07, 'epoch': 2340.0}
  0%|          | 2341/1500000 [1:58:14<1064:17:55,  2.56s/it]                                                               0%|          | 2341/1500000 [1:58:14<1064:17:55,  2.56s/it]{'loss': 0.6507, 'grad_norm': 1.2982747554779053, 'learning_rate': 4.6760000000000003e-07, 'epoch': 2341.0}
  0%|          | 2342/1500000 [1:58:16<1069:18:39,  2.57s/it]                                                               0%|          | 2342/1500000 [1:58:16<1069:18:39,  2.57s/it]{'loss': 0.6514, 'grad_norm': 4.990797519683838, 'learning_rate': 4.6780000000000005e-07, 'epoch': 2342.0}
  0%|          | 2343/1500000 [1:58:19<1067:22:05,  2.57s/it]                                                               0%|          | 2343/1500000 [1:58:19<1067:22:05,  2.57s/it]{'loss': 0.6578, 'grad_norm': 1.4838467836380005, 'learning_rate': 4.68e-07, 'epoch': 2343.0}
  0%|          | 2344/1500000 [1:58:22<1099:37:24,  2.64s/it]                                                               0%|          | 2344/1500000 [1:58:22<1099:37:24,  2.64s/it]{'loss': 0.6608, 'grad_norm': 2.828667402267456, 'learning_rate': 4.682e-07, 'epoch': 2344.0}
  0%|          | 2345/1500000 [1:58:25<1120:55:59,  2.69s/it]                                                               0%|          | 2345/1500000 [1:58:25<1120:55:59,  2.69s/it]{'loss': 0.654, 'grad_norm': 1.9631081819534302, 'learning_rate': 4.684e-07, 'epoch': 2345.0}
  0%|          | 2346/1500000 [1:58:27<1135:47:43,  2.73s/it]                                                               0%|          | 2346/1500000 [1:58:27<1135:47:43,  2.73s/it]{'loss': 0.6608, 'grad_norm': 5.049156188964844, 'learning_rate': 4.686e-07, 'epoch': 2346.0}
  0%|          | 2347/1500000 [1:58:30<1147:28:17,  2.76s/it]                                                               0%|          | 2347/1500000 [1:58:30<1147:28:17,  2.76s/it]{'loss': 0.6566, 'grad_norm': 2.3605711460113525, 'learning_rate': 4.688e-07, 'epoch': 2347.0}
  0%|          | 2348/1500000 [1:58:33<1120:44:59,  2.69s/it]                                                               0%|          | 2348/1500000 [1:58:33<1120:44:59,  2.69s/it]{'loss': 0.6472, 'grad_norm': 1.5944820642471313, 'learning_rate': 4.69e-07, 'epoch': 2348.0}
  0%|          | 2349/1500000 [1:58:35<1104:12:47,  2.65s/it]                                                               0%|          | 2349/1500000 [1:58:35<1104:12:47,  2.65s/it]{'loss': 0.6672, 'grad_norm': 3.167715311050415, 'learning_rate': 4.6920000000000005e-07, 'epoch': 2349.0}
  0%|          | 2350/1500000 [1:58:38<1090:16:52,  2.62s/it]                                                               0%|          | 2350/1500000 [1:58:38<1090:16:52,  2.62s/it]{'loss': 0.6522, 'grad_norm': 1.7013576030731201, 'learning_rate': 4.694e-07, 'epoch': 2350.0}
  0%|          | 2351/1500000 [1:58:40<1082:52:04,  2.60s/it]                                                               0%|          | 2351/1500000 [1:58:40<1082:52:04,  2.60s/it]{'loss': 0.6466, 'grad_norm': 9.661456108093262, 'learning_rate': 4.6959999999999997e-07, 'epoch': 2351.0}
  0%|          | 2352/1500000 [1:58:43<1078:17:59,  2.59s/it]                                                               0%|          | 2352/1500000 [1:58:43<1078:17:59,  2.59s/it]{'loss': 0.6495, 'grad_norm': 1.5574103593826294, 'learning_rate': 4.6980000000000004e-07, 'epoch': 2352.0}
  0%|          | 2353/1500000 [1:58:46<1073:36:13,  2.58s/it]                                                               0%|          | 2353/1500000 [1:58:46<1073:36:13,  2.58s/it]{'loss': 0.6558, 'grad_norm': 1.7925002574920654, 'learning_rate': 4.7e-07, 'epoch': 2353.0}
  0%|          | 2354/1500000 [1:58:48<1071:57:44,  2.58s/it]                                                               0%|          | 2354/1500000 [1:58:48<1071:57:44,  2.58s/it]{'loss': 0.6449, 'grad_norm': 1.8701845407485962, 'learning_rate': 4.702e-07, 'epoch': 2354.0}
  0%|          | 2355/1500000 [1:58:51<1059:01:41,  2.55s/it]                                                               0%|          | 2355/1500000 [1:58:51<1059:01:41,  2.55s/it]{'loss': 0.6505, 'grad_norm': 33.73686599731445, 'learning_rate': 4.704e-07, 'epoch': 2355.0}
  0%|          | 2356/1500000 [1:58:53<1057:13:08,  2.54s/it]                                                               0%|          | 2356/1500000 [1:58:53<1057:13:08,  2.54s/it]{'loss': 0.6429, 'grad_norm': 5.723662853240967, 'learning_rate': 4.7060000000000004e-07, 'epoch': 2356.0}
  0%|          | 2357/1500000 [1:58:56<1067:29:15,  2.57s/it]                                                               0%|          | 2357/1500000 [1:58:56<1067:29:15,  2.57s/it]{'loss': 0.6593, 'grad_norm': 2.541760206222534, 'learning_rate': 4.708e-07, 'epoch': 2357.0}
  0%|          | 2358/1500000 [1:58:58<1068:21:47,  2.57s/it]                                                               0%|          | 2358/1500000 [1:58:58<1068:21:47,  2.57s/it]{'loss': 0.6483, 'grad_norm': 1.3672089576721191, 'learning_rate': 4.7099999999999997e-07, 'epoch': 2358.0}
  0%|          | 2359/1500000 [1:59:01<1103:39:58,  2.65s/it]                                                               0%|          | 2359/1500000 [1:59:01<1103:39:58,  2.65s/it]{'loss': 0.6405, 'grad_norm': 1.8710583448410034, 'learning_rate': 4.7120000000000004e-07, 'epoch': 2359.0}
  0%|          | 2360/1500000 [1:59:04<1108:05:24,  2.66s/it]                                                               0%|          | 2360/1500000 [1:59:04<1108:05:24,  2.66s/it]{'loss': 0.6341, 'grad_norm': 4.750333786010742, 'learning_rate': 4.714e-07, 'epoch': 2360.0}
  0%|          | 2361/1500000 [1:59:06<1098:27:40,  2.64s/it]                                                               0%|          | 2361/1500000 [1:59:07<1098:27:40,  2.64s/it]{'loss': 0.6425, 'grad_norm': 2.691880941390991, 'learning_rate': 4.7160000000000007e-07, 'epoch': 2361.0}
  0%|          | 2362/1500000 [1:59:09<1085:26:41,  2.61s/it]                                                               0%|          | 2362/1500000 [1:59:09<1085:26:41,  2.61s/it]{'loss': 0.6406, 'grad_norm': 2.795823574066162, 'learning_rate': 4.7180000000000003e-07, 'epoch': 2362.0}
  0%|          | 2363/1500000 [1:59:12<1110:57:34,  2.67s/it]                                                               0%|          | 2363/1500000 [1:59:12<1110:57:34,  2.67s/it]{'loss': 0.6426, 'grad_norm': 1.7411894798278809, 'learning_rate': 4.72e-07, 'epoch': 2363.0}
  0%|          | 2364/1500000 [1:59:14<1096:59:33,  2.64s/it]                                                               0%|          | 2364/1500000 [1:59:14<1096:59:33,  2.64s/it]{'loss': 0.6332, 'grad_norm': 1.8341768980026245, 'learning_rate': 4.722e-07, 'epoch': 2364.0}
  0%|          | 2365/1500000 [1:59:17<1084:16:38,  2.61s/it]                                                               0%|          | 2365/1500000 [1:59:17<1084:16:38,  2.61s/it]{'loss': 0.6439, 'grad_norm': 1.6265417337417603, 'learning_rate': 4.7239999999999997e-07, 'epoch': 2365.0}
  0%|          | 2366/1500000 [1:59:19<1075:37:40,  2.59s/it]                                                               0%|          | 2366/1500000 [1:59:19<1075:37:40,  2.59s/it]{'loss': 0.6336, 'grad_norm': 2.1995859146118164, 'learning_rate': 4.7260000000000004e-07, 'epoch': 2366.0}
  0%|          | 2367/1500000 [1:59:22<1064:28:13,  2.56s/it]                                                               0%|          | 2367/1500000 [1:59:22<1064:28:13,  2.56s/it]{'loss': 0.625, 'grad_norm': 2.421504497528076, 'learning_rate': 4.728e-07, 'epoch': 2367.0}
  0%|          | 2368/1500000 [1:59:25<1060:59:19,  2.55s/it]                                                               0%|          | 2368/1500000 [1:59:25<1060:59:19,  2.55s/it]{'loss': 0.6343, 'grad_norm': 31.014007568359375, 'learning_rate': 4.7299999999999996e-07, 'epoch': 2368.0}
  0%|          | 2369/1500000 [1:59:27<1095:14:26,  2.63s/it]                                                               0%|          | 2369/1500000 [1:59:27<1095:14:26,  2.63s/it]{'loss': 0.6278, 'grad_norm': 3.523084878921509, 'learning_rate': 4.7320000000000003e-07, 'epoch': 2369.0}
  0%|          | 2370/1500000 [1:59:30<1121:50:44,  2.70s/it]                                                               0%|          | 2370/1500000 [1:59:30<1121:50:44,  2.70s/it]{'loss': 0.6163, 'grad_norm': 1.84611177444458, 'learning_rate': 4.734e-07, 'epoch': 2370.0}
  0%|          | 2371/1500000 [1:59:33<1112:50:56,  2.68s/it]                                                               0%|          | 2371/1500000 [1:59:33<1112:50:56,  2.68s/it]{'loss': 0.6317, 'grad_norm': 4.019183158874512, 'learning_rate': 4.7360000000000006e-07, 'epoch': 2371.0}
  0%|          | 2372/1500000 [1:59:35<1103:14:21,  2.65s/it]                                                               0%|          | 2372/1500000 [1:59:35<1103:14:21,  2.65s/it]{'loss': 0.6368, 'grad_norm': 1.9508754014968872, 'learning_rate': 4.738e-07, 'epoch': 2372.0}
  0%|          | 2373/1500000 [1:59:38<1125:39:30,  2.71s/it]                                                               0%|          | 2373/1500000 [1:59:38<1125:39:30,  2.71s/it]{'loss': 0.6377, 'grad_norm': 1.4136593341827393, 'learning_rate': 4.7400000000000004e-07, 'epoch': 2373.0}
  0%|          | 2374/1500000 [1:59:41<1103:25:45,  2.65s/it]                                                               0%|          | 2374/1500000 [1:59:41<1103:25:45,  2.65s/it]{'loss': 0.6414, 'grad_norm': 2.050067186355591, 'learning_rate': 4.742e-07, 'epoch': 2374.0}
  0%|          | 2375/1500000 [1:59:43<1092:30:44,  2.63s/it]                                                               0%|          | 2375/1500000 [1:59:43<1092:30:44,  2.63s/it]{'loss': 0.6267, 'grad_norm': 3.505847930908203, 'learning_rate': 4.7439999999999996e-07, 'epoch': 2375.0}
  0%|          | 2376/1500000 [1:59:46<1110:11:47,  2.67s/it]                                                               0%|          | 2376/1500000 [1:59:46<1110:11:47,  2.67s/it]{'loss': 0.636, 'grad_norm': 6.35045862197876, 'learning_rate': 4.7460000000000003e-07, 'epoch': 2376.0}
  0%|          | 2377/1500000 [1:59:49<1131:57:37,  2.72s/it]                                                               0%|          | 2377/1500000 [1:59:49<1131:57:37,  2.72s/it]{'loss': 0.6341, 'grad_norm': 1.5014691352844238, 'learning_rate': 4.748e-07, 'epoch': 2377.0}
  0%|          | 2378/1500000 [1:59:52<1113:14:45,  2.68s/it]                                                               0%|          | 2378/1500000 [1:59:52<1113:14:45,  2.68s/it]{'loss': 0.6374, 'grad_norm': 1.5613493919372559, 'learning_rate': 4.7500000000000006e-07, 'epoch': 2378.0}
  0%|          | 2379/1500000 [1:59:54<1092:08:20,  2.63s/it]                                                               0%|          | 2379/1500000 [1:59:54<1092:08:20,  2.63s/it]{'loss': 0.6265, 'grad_norm': 2.3412070274353027, 'learning_rate': 4.752e-07, 'epoch': 2379.0}
  0%|          | 2380/1500000 [1:59:57<1086:24:32,  2.61s/it]                                                               0%|          | 2380/1500000 [1:59:57<1086:24:32,  2.61s/it]{'loss': 0.6379, 'grad_norm': 2.897494077682495, 'learning_rate': 4.754e-07, 'epoch': 2380.0}
  0%|          | 2381/1500000 [1:59:59<1071:25:12,  2.58s/it]                                                               0%|          | 2381/1500000 [1:59:59<1071:25:12,  2.58s/it]{'loss': 0.6242, 'grad_norm': 1.3787548542022705, 'learning_rate': 4.7560000000000005e-07, 'epoch': 2381.0}
  0%|          | 2382/1500000 [2:00:02<1100:21:39,  2.65s/it]                                                               0%|          | 2382/1500000 [2:00:02<1100:21:39,  2.65s/it]{'loss': 0.6119, 'grad_norm': 2.298011064529419, 'learning_rate': 4.7579999999999996e-07, 'epoch': 2382.0}
  0%|          | 2383/1500000 [2:00:05<1162:09:43,  2.79s/it]                                                               0%|          | 2383/1500000 [2:00:05<1162:09:43,  2.79s/it]{'loss': 0.6213, 'grad_norm': 2.953115940093994, 'learning_rate': 4.7600000000000003e-07, 'epoch': 2383.0}
  0%|          | 2384/1500000 [2:00:08<1126:51:40,  2.71s/it]                                                               0%|          | 2384/1500000 [2:00:08<1126:51:40,  2.71s/it]{'loss': 0.6182, 'grad_norm': 2.7123372554779053, 'learning_rate': 4.762e-07, 'epoch': 2384.0}
  0%|          | 2385/1500000 [2:00:10<1103:38:04,  2.65s/it]                                                               0%|          | 2385/1500000 [2:00:10<1103:38:04,  2.65s/it]{'loss': 0.6198, 'grad_norm': 3.0208635330200195, 'learning_rate': 4.7639999999999995e-07, 'epoch': 2385.0}
  0%|          | 2386/1500000 [2:00:13<1085:06:34,  2.61s/it]                                                               0%|          | 2386/1500000 [2:00:13<1085:06:34,  2.61s/it]{'loss': 0.6193, 'grad_norm': 2.4316158294677734, 'learning_rate': 4.766e-07, 'epoch': 2386.0}
  0%|          | 2387/1500000 [2:00:15<1091:12:19,  2.62s/it]                                                               0%|          | 2387/1500000 [2:00:15<1091:12:19,  2.62s/it]{'loss': 0.6277, 'grad_norm': 1.8005906343460083, 'learning_rate': 4.768e-07, 'epoch': 2387.0}
  0%|          | 2388/1500000 [2:00:18<1099:36:35,  2.64s/it]                                                               0%|          | 2388/1500000 [2:00:18<1099:36:35,  2.64s/it]{'loss': 0.6104, 'grad_norm': 1.717536449432373, 'learning_rate': 4.77e-07, 'epoch': 2388.0}
  0%|          | 2389/1500000 [2:00:20<1088:52:11,  2.62s/it]                                                               0%|          | 2389/1500000 [2:00:20<1088:52:11,  2.62s/it]{'loss': 0.6283, 'grad_norm': 1.4235801696777344, 'learning_rate': 4.772e-07, 'epoch': 2389.0}
  0%|          | 2390/1500000 [2:00:23<1089:44:10,  2.62s/it]                                                               0%|          | 2390/1500000 [2:00:23<1089:44:10,  2.62s/it]{'loss': 0.6173, 'grad_norm': 3.4228055477142334, 'learning_rate': 4.774000000000001e-07, 'epoch': 2390.0}
  0%|          | 2391/1500000 [2:00:26<1073:23:44,  2.58s/it]                                                               0%|          | 2391/1500000 [2:00:26<1073:23:44,  2.58s/it]{'loss': 0.6193, 'grad_norm': 2.7771997451782227, 'learning_rate': 4.776e-07, 'epoch': 2391.0}
  0%|          | 2392/1500000 [2:00:28<1072:30:10,  2.58s/it]                                                               0%|          | 2392/1500000 [2:00:28<1072:30:10,  2.58s/it]{'loss': 0.6159, 'grad_norm': 1.5895037651062012, 'learning_rate': 4.778e-07, 'epoch': 2392.0}
  0%|          | 2393/1500000 [2:00:31<1107:56:10,  2.66s/it]                                                               0%|          | 2393/1500000 [2:00:31<1107:56:10,  2.66s/it]{'loss': 0.6069, 'grad_norm': 1.265852451324463, 'learning_rate': 4.78e-07, 'epoch': 2393.0}
  0%|          | 2394/1500000 [2:00:34<1099:19:14,  2.64s/it]                                                               0%|          | 2394/1500000 [2:00:34<1099:19:14,  2.64s/it]{'loss': 0.6033, 'grad_norm': 3.130373001098633, 'learning_rate': 4.782e-07, 'epoch': 2394.0}
  0%|          | 2395/1500000 [2:00:36<1090:17:03,  2.62s/it]                                                               0%|          | 2395/1500000 [2:00:36<1090:17:03,  2.62s/it]{'loss': 0.617, 'grad_norm': 2.7244739532470703, 'learning_rate': 4.784e-07, 'epoch': 2395.0}
  0%|          | 2396/1500000 [2:00:39<1075:21:09,  2.58s/it]                                                               0%|          | 2396/1500000 [2:00:39<1075:21:09,  2.58s/it]{'loss': 0.6138, 'grad_norm': 4.871789455413818, 'learning_rate': 4.786e-07, 'epoch': 2396.0}
  0%|          | 2397/1500000 [2:00:41<1063:05:17,  2.56s/it]                                                               0%|          | 2397/1500000 [2:00:41<1063:05:17,  2.56s/it]{'loss': 0.6048, 'grad_norm': 2.7654688358306885, 'learning_rate': 4.788e-07, 'epoch': 2397.0}
  0%|          | 2398/1500000 [2:00:44<1057:40:36,  2.54s/it]                                                               0%|          | 2398/1500000 [2:00:44<1057:40:36,  2.54s/it]{'loss': 0.6154, 'grad_norm': 2.0748355388641357, 'learning_rate': 4.79e-07, 'epoch': 2398.0}
  0%|          | 2399/1500000 [2:00:46<1086:37:25,  2.61s/it]                                                               0%|          | 2399/1500000 [2:00:46<1086:37:25,  2.61s/it]{'loss': 0.6087, 'grad_norm': 1.2680786848068237, 'learning_rate': 4.792e-07, 'epoch': 2399.0}
  0%|          | 2400/1500000 [2:00:49<1118:50:39,  2.69s/it]                                                               0%|          | 2400/1500000 [2:00:49<1118:50:39,  2.69s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.5941, 'grad_norm': 1.2744433879852295, 'learning_rate': 4.794e-07, 'epoch': 2400.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.33it/s][A
 43%|████▎     | 3/7 [00:02<00:04,  1.01s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.34s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.33s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.49s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.13s/it][A                                                             
                                             [A  0%|          | 2400/1500000 [2:01:35<1118:50:39,  2.69s/it]
100%|██████████| 7/7 [00:09<00:00,  1.13s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2200] due to args.save_total_limit
{'eval_loss': 3.2958641052246094, 'eval_wer': 1.0711992662233432, 'eval_cer': 0.7593254356765224, 'eval_runtime': 18.2309, 'eval_samples_per_second': 53.92, 'eval_steps_per_second': 0.384, 'epoch': 2400.0}
  0%|          | 2401/1500000 [2:01:53<8700:42:52, 20.92s/it]                                                               0%|          | 2401/1500000 [2:01:53<8700:42:52, 20.92s/it]{'loss': 0.6029, 'grad_norm': 2.8455088138580322, 'learning_rate': 4.796e-07, 'epoch': 2401.0}
  0%|          | 2402/1500000 [2:01:55<6407:43:10, 15.40s/it]                                                               0%|          | 2402/1500000 [2:01:55<6407:43:10, 15.40s/it]{'loss': 0.6138, 'grad_norm': 1.6984331607818604, 'learning_rate': 4.797999999999999e-07, 'epoch': 2402.0}
  0%|          | 2403/1500000 [2:01:58<4804:43:09, 11.55s/it]                                                               0%|          | 2403/1500000 [2:01:58<4804:43:09, 11.55s/it]{'loss': 0.6044, 'grad_norm': 11.357346534729004, 'learning_rate': 4.800000000000001e-07, 'epoch': 2403.0}
  0%|          | 2404/1500000 [2:02:00<3689:31:20,  8.87s/it]                                                               0%|          | 2404/1500000 [2:02:01<3689:31:20,  8.87s/it]{'loss': 0.6104, 'grad_norm': 1.3652149438858032, 'learning_rate': 4.802e-07, 'epoch': 2404.0}
  0%|          | 2405/1500000 [2:02:03<2901:05:53,  6.97s/it]                                                               0%|          | 2405/1500000 [2:02:03<2901:05:53,  6.97s/it]{'loss': 0.5988, 'grad_norm': 2.674182891845703, 'learning_rate': 4.804000000000001e-07, 'epoch': 2405.0}
  0%|          | 2406/1500000 [2:02:06<2352:16:44,  5.65s/it]                                                               0%|          | 2406/1500000 [2:02:06<2352:16:44,  5.65s/it]{'loss': 0.5989, 'grad_norm': 9.98847770690918, 'learning_rate': 4.806e-07, 'epoch': 2406.0}
  0%|          | 2407/1500000 [2:02:08<1964:30:08,  4.72s/it]                                                               0%|          | 2407/1500000 [2:02:08<1964:30:08,  4.72s/it]{'loss': 0.5963, 'grad_norm': 2.6601104736328125, 'learning_rate': 4.808e-07, 'epoch': 2407.0}
  0%|          | 2408/1500000 [2:02:11<1697:44:22,  4.08s/it]                                                               0%|          | 2408/1500000 [2:02:11<1697:44:22,  4.08s/it]{'loss': 0.6019, 'grad_norm': 2.076831579208374, 'learning_rate': 4.81e-07, 'epoch': 2408.0}
  0%|          | 2409/1500000 [2:02:13<1492:14:23,  3.59s/it]                                                               0%|          | 2409/1500000 [2:02:13<1492:14:23,  3.59s/it]{'loss': 0.5979, 'grad_norm': 1.8756929636001587, 'learning_rate': 4.811999999999999e-07, 'epoch': 2409.0}
  0%|          | 2410/1500000 [2:02:16<1358:28:42,  3.27s/it]                                                               0%|          | 2410/1500000 [2:02:16<1358:28:42,  3.27s/it]{'loss': 0.5977, 'grad_norm': 23.316064834594727, 'learning_rate': 4.814000000000001e-07, 'epoch': 2410.0}
  0%|          | 2411/1500000 [2:02:19<1301:05:11,  3.13s/it]                                                               0%|          | 2411/1500000 [2:02:19<1301:05:11,  3.13s/it]{'loss': 0.6039, 'grad_norm': 1.3537306785583496, 'learning_rate': 4.816e-07, 'epoch': 2411.0}
  0%|          | 2412/1500000 [2:02:21<1220:14:25,  2.93s/it]                                                               0%|          | 2412/1500000 [2:02:21<1220:14:25,  2.93s/it]{'loss': 0.6, 'grad_norm': 1.7245848178863525, 'learning_rate': 4.818000000000001e-07, 'epoch': 2412.0}
  0%|          | 2413/1500000 [2:02:24<1188:30:07,  2.86s/it]                                                               0%|          | 2413/1500000 [2:02:24<1188:30:07,  2.86s/it]{'loss': 0.5887, 'grad_norm': 3.160083293914795, 'learning_rate': 4.82e-07, 'epoch': 2413.0}
  0%|          | 2414/1500000 [2:02:26<1149:11:30,  2.76s/it]                                                               0%|          | 2414/1500000 [2:02:26<1149:11:30,  2.76s/it]{'loss': 0.5955, 'grad_norm': 1.6074132919311523, 'learning_rate': 4.822e-07, 'epoch': 2414.0}
  0%|          | 2415/1500000 [2:02:29<1170:08:02,  2.81s/it]                                                               0%|          | 2415/1500000 [2:02:29<1170:08:02,  2.81s/it]{'loss': 0.585, 'grad_norm': 1.8610299825668335, 'learning_rate': 4.824e-07, 'epoch': 2415.0}
  0%|          | 2416/1500000 [2:02:32<1141:20:02,  2.74s/it]                                                               0%|          | 2416/1500000 [2:02:32<1141:20:02,  2.74s/it]{'loss': 0.5839, 'grad_norm': 2.1696603298187256, 'learning_rate': 4.825999999999999e-07, 'epoch': 2416.0}
  0%|          | 2417/1500000 [2:02:34<1118:10:30,  2.69s/it]                                                               0%|          | 2417/1500000 [2:02:34<1118:10:30,  2.69s/it]{'loss': 0.5834, 'grad_norm': 1.3324474096298218, 'learning_rate': 4.828000000000001e-07, 'epoch': 2417.0}
  0%|          | 2418/1500000 [2:02:37<1105:24:02,  2.66s/it]                                                               0%|          | 2418/1500000 [2:02:37<1105:24:02,  2.66s/it]{'loss': 0.5952, 'grad_norm': 2.012585163116455, 'learning_rate': 4.83e-07, 'epoch': 2418.0}
  0%|          | 2419/1500000 [2:02:39<1089:38:34,  2.62s/it]                                                               0%|          | 2419/1500000 [2:02:39<1089:38:34,  2.62s/it]{'loss': 0.6, 'grad_norm': 1.3611953258514404, 'learning_rate': 4.832e-07, 'epoch': 2419.0}
  0%|          | 2420/1500000 [2:02:42<1088:02:33,  2.62s/it]                                                               0%|          | 2420/1500000 [2:02:42<1088:02:33,  2.62s/it]{'loss': 0.5822, 'grad_norm': 2.186941623687744, 'learning_rate': 4.834e-07, 'epoch': 2420.0}
  0%|          | 2421/1500000 [2:02:45<1116:26:23,  2.68s/it]                                                               0%|          | 2421/1500000 [2:02:45<1116:26:23,  2.68s/it]{'loss': 0.5884, 'grad_norm': 2.423758029937744, 'learning_rate': 4.836e-07, 'epoch': 2421.0}
  0%|          | 2422/1500000 [2:02:47<1107:21:43,  2.66s/it]                                                               0%|          | 2422/1500000 [2:02:47<1107:21:43,  2.66s/it]{'loss': 0.591, 'grad_norm': 4.687285423278809, 'learning_rate': 4.838e-07, 'epoch': 2422.0}
  0%|          | 2423/1500000 [2:02:50<1127:48:29,  2.71s/it]                                                               0%|          | 2423/1500000 [2:02:50<1127:48:29,  2.71s/it]{'loss': 0.5947, 'grad_norm': 2.6018481254577637, 'learning_rate': 4.84e-07, 'epoch': 2423.0}
  0%|          | 2424/1500000 [2:02:53<1110:39:54,  2.67s/it]                                                               0%|          | 2424/1500000 [2:02:53<1110:39:54,  2.67s/it]{'loss': 0.5858, 'grad_norm': 1.4273016452789307, 'learning_rate': 4.842000000000001e-07, 'epoch': 2424.0}
  0%|          | 2425/1500000 [2:02:56<1132:29:54,  2.72s/it]                                                               0%|          | 2425/1500000 [2:02:56<1132:29:54,  2.72s/it]{'loss': 0.5834, 'grad_norm': 1.8969303369522095, 'learning_rate': 4.844e-07, 'epoch': 2425.0}
  0%|          | 2426/1500000 [2:02:59<1151:02:24,  2.77s/it]                                                               0%|          | 2426/1500000 [2:02:59<1151:02:24,  2.77s/it]{'loss': 0.5756, 'grad_norm': 4.174875259399414, 'learning_rate': 4.846e-07, 'epoch': 2426.0}
  0%|          | 2427/1500000 [2:03:01<1116:52:27,  2.68s/it]                                                               0%|          | 2427/1500000 [2:03:01<1116:52:27,  2.68s/it]{'loss': 0.5764, 'grad_norm': 2.2811050415039062, 'learning_rate': 4.848e-07, 'epoch': 2427.0}
  0%|          | 2428/1500000 [2:03:04<1102:27:22,  2.65s/it]                                                               0%|          | 2428/1500000 [2:03:04<1102:27:22,  2.65s/it]{'loss': 0.5736, 'grad_norm': 1.641033411026001, 'learning_rate': 4.85e-07, 'epoch': 2428.0}
  0%|          | 2429/1500000 [2:03:06<1119:32:24,  2.69s/it]                                                               0%|          | 2429/1500000 [2:03:06<1119:32:24,  2.69s/it]{'loss': 0.5921, 'grad_norm': 1.67718505859375, 'learning_rate': 4.852e-07, 'epoch': 2429.0}
  0%|          | 2430/1500000 [2:03:09<1093:16:11,  2.63s/it]                                                               0%|          | 2430/1500000 [2:03:09<1093:16:11,  2.63s/it]{'loss': 0.5846, 'grad_norm': 1.434136986732483, 'learning_rate': 4.854e-07, 'epoch': 2430.0}
  0%|          | 2431/1500000 [2:03:11<1085:34:04,  2.61s/it]                                                               0%|          | 2431/1500000 [2:03:11<1085:34:04,  2.61s/it]{'loss': 0.5828, 'grad_norm': 1.8218088150024414, 'learning_rate': 4.856e-07, 'epoch': 2431.0}
  0%|          | 2432/1500000 [2:03:14<1079:28:23,  2.59s/it]                                                               0%|          | 2432/1500000 [2:03:14<1079:28:23,  2.59s/it]{'loss': 0.5839, 'grad_norm': 3.0410070419311523, 'learning_rate': 4.858000000000001e-07, 'epoch': 2432.0}
  0%|          | 2433/1500000 [2:03:17<1070:29:53,  2.57s/it]                                                               0%|          | 2433/1500000 [2:03:17<1070:29:53,  2.57s/it]{'loss': 0.5858, 'grad_norm': 1.5573594570159912, 'learning_rate': 4.86e-07, 'epoch': 2433.0}
  0%|          | 2434/1500000 [2:03:19<1075:45:13,  2.59s/it]                                                               0%|          | 2434/1500000 [2:03:19<1075:45:13,  2.59s/it]{'loss': 0.5791, 'grad_norm': 5.542243957519531, 'learning_rate': 4.862e-07, 'epoch': 2434.0}
  0%|          | 2435/1500000 [2:03:22<1075:53:38,  2.59s/it]                                                               0%|          | 2435/1500000 [2:03:22<1075:53:38,  2.59s/it]{'loss': 0.5763, 'grad_norm': 25.968852996826172, 'learning_rate': 4.864e-07, 'epoch': 2435.0}
  0%|          | 2436/1500000 [2:03:24<1073:52:47,  2.58s/it]                                                               0%|          | 2436/1500000 [2:03:24<1073:52:47,  2.58s/it]{'loss': 0.5777, 'grad_norm': 15.927542686462402, 'learning_rate': 4.865999999999999e-07, 'epoch': 2436.0}
  0%|          | 2437/1500000 [2:03:27<1111:56:19,  2.67s/it]                                                               0%|          | 2437/1500000 [2:03:27<1111:56:19,  2.67s/it]{'loss': 0.5673, 'grad_norm': 1.6368604898452759, 'learning_rate': 4.868e-07, 'epoch': 2437.0}
  0%|          | 2438/1500000 [2:03:30<1101:46:12,  2.65s/it]                                                               0%|          | 2438/1500000 [2:03:30<1101:46:12,  2.65s/it]{'loss': 0.5718, 'grad_norm': 5.794288158416748, 'learning_rate': 4.87e-07, 'epoch': 2438.0}
  0%|          | 2439/1500000 [2:03:32<1088:23:48,  2.62s/it]                                                               0%|          | 2439/1500000 [2:03:32<1088:23:48,  2.62s/it]{'loss': 0.577, 'grad_norm': 1.3936502933502197, 'learning_rate': 4.872000000000001e-07, 'epoch': 2439.0}
  0%|          | 2440/1500000 [2:03:35<1077:10:08,  2.59s/it]                                                               0%|          | 2440/1500000 [2:03:35<1077:10:08,  2.59s/it]{'loss': 0.5692, 'grad_norm': 1.6226199865341187, 'learning_rate': 4.874e-07, 'epoch': 2440.0}
  0%|          | 2441/1500000 [2:03:38<1105:02:02,  2.66s/it]                                                               0%|          | 2441/1500000 [2:03:38<1105:02:02,  2.66s/it]{'loss': 0.5652, 'grad_norm': 2.4077725410461426, 'learning_rate': 4.876000000000001e-07, 'epoch': 2441.0}
  0%|          | 2442/1500000 [2:03:40<1124:25:15,  2.70s/it]                                                               0%|          | 2442/1500000 [2:03:40<1124:25:15,  2.70s/it]{'loss': 0.5643, 'grad_norm': 1.6507799625396729, 'learning_rate': 4.878e-07, 'epoch': 2442.0}
  0%|          | 2443/1500000 [2:03:43<1116:50:36,  2.68s/it]                                                               0%|          | 2443/1500000 [2:03:43<1116:50:36,  2.68s/it]{'loss': 0.5712, 'grad_norm': 3.4681990146636963, 'learning_rate': 4.879999999999999e-07, 'epoch': 2443.0}
  0%|          | 2444/1500000 [2:03:46<1104:22:10,  2.65s/it]                                                               0%|          | 2444/1500000 [2:03:46<1104:22:10,  2.65s/it]{'loss': 0.5658, 'grad_norm': 1.8182086944580078, 'learning_rate': 4.882e-07, 'epoch': 2444.0}
  0%|          | 2445/1500000 [2:03:48<1097:10:12,  2.64s/it]                                                               0%|          | 2445/1500000 [2:03:48<1097:10:12,  2.64s/it]{'loss': 0.5642, 'grad_norm': 4.756336212158203, 'learning_rate': 4.884e-07, 'epoch': 2445.0}
  0%|          | 2446/1500000 [2:03:51<1117:44:47,  2.69s/it]                                                               0%|          | 2446/1500000 [2:03:51<1117:44:47,  2.69s/it]{'loss': 0.5569, 'grad_norm': 1.935947060585022, 'learning_rate': 4.886000000000001e-07, 'epoch': 2446.0}
  0%|          | 2447/1500000 [2:03:54<1130:59:18,  2.72s/it]                                                               0%|          | 2447/1500000 [2:03:54<1130:59:18,  2.72s/it]{'loss': 0.5647, 'grad_norm': 3.386732339859009, 'learning_rate': 4.888e-07, 'epoch': 2447.0}
  0%|          | 2448/1500000 [2:03:57<1117:41:06,  2.69s/it]                                                               0%|          | 2448/1500000 [2:03:57<1117:41:06,  2.69s/it]{'loss': 0.5734, 'grad_norm': 2.7125816345214844, 'learning_rate': 4.89e-07, 'epoch': 2448.0}
  0%|          | 2449/1500000 [2:03:59<1090:51:12,  2.62s/it]                                                               0%|          | 2449/1500000 [2:03:59<1090:51:12,  2.62s/it]{'loss': 0.5749, 'grad_norm': 4.808191776275635, 'learning_rate': 4.892e-07, 'epoch': 2449.0}
  0%|          | 2450/1500000 [2:04:02<1083:25:32,  2.60s/it]                                                               0%|          | 2450/1500000 [2:04:02<1083:25:32,  2.60s/it]{'loss': 0.558, 'grad_norm': 1.7952994108200073, 'learning_rate': 4.894e-07, 'epoch': 2450.0}
  0%|          | 2451/1500000 [2:04:04<1071:04:35,  2.57s/it]                                                               0%|          | 2451/1500000 [2:04:04<1071:04:35,  2.57s/it]{'loss': 0.5612, 'grad_norm': 2.6325595378875732, 'learning_rate': 4.896e-07, 'epoch': 2451.0}
  0%|          | 2452/1500000 [2:04:07<1069:40:28,  2.57s/it]                                                               0%|          | 2452/1500000 [2:04:07<1069:40:28,  2.57s/it]{'loss': 0.5555, 'grad_norm': 1.9735428094863892, 'learning_rate': 4.898e-07, 'epoch': 2452.0}
  0%|          | 2453/1500000 [2:04:09<1059:56:48,  2.55s/it]                                                               0%|          | 2453/1500000 [2:04:09<1059:56:48,  2.55s/it]{'loss': 0.5479, 'grad_norm': 1.4585157632827759, 'learning_rate': 4.9e-07, 'epoch': 2453.0}
  0%|          | 2454/1500000 [2:04:12<1091:07:35,  2.62s/it]                                                               0%|          | 2454/1500000 [2:04:12<1091:07:35,  2.62s/it]{'loss': 0.5462, 'grad_norm': 1.6124577522277832, 'learning_rate': 4.902e-07, 'epoch': 2454.0}
  0%|          | 2455/1500000 [2:04:14<1082:34:41,  2.60s/it]                                                               0%|          | 2455/1500000 [2:04:14<1082:34:41,  2.60s/it]{'loss': 0.5538, 'grad_norm': 2.3767693042755127, 'learning_rate': 4.904e-07, 'epoch': 2455.0}
  0%|          | 2456/1500000 [2:04:17<1081:58:43,  2.60s/it]                                                               0%|          | 2456/1500000 [2:04:17<1081:58:43,  2.60s/it]{'loss': 0.5575, 'grad_norm': 1.8429704904556274, 'learning_rate': 4.906e-07, 'epoch': 2456.0}
  0%|          | 2457/1500000 [2:04:19<1007:15:40,  2.42s/it]                                                               0%|          | 2457/1500000 [2:04:19<1007:15:40,  2.42s/it]{'loss': 0.551, 'grad_norm': 8.571575164794922, 'learning_rate': 4.908e-07, 'epoch': 2457.0}
  0%|          | 2458/1500000 [2:04:21<951:33:18,  2.29s/it]                                                               0%|          | 2458/1500000 [2:04:21<951:33:18,  2.29s/it]{'loss': 0.5596, 'grad_norm': 3.5118699073791504, 'learning_rate': 4.91e-07, 'epoch': 2458.0}
  0%|          | 2459/1500000 [2:04:23<899:20:49,  2.16s/it]                                                              0%|          | 2459/1500000 [2:04:23<899:20:49,  2.16s/it]{'loss': 0.562, 'grad_norm': 4.32260799407959, 'learning_rate': 4.912000000000001e-07, 'epoch': 2459.0}
  0%|          | 2460/1500000 [2:04:25<865:36:13,  2.08s/it]                                                              0%|          | 2460/1500000 [2:04:25<865:36:13,  2.08s/it]{'loss': 0.5528, 'grad_norm': 1.4212150573730469, 'learning_rate': 4.914e-07, 'epoch': 2460.0}
  0%|          | 2461/1500000 [2:04:27<838:08:38,  2.01s/it]                                                              0%|          | 2461/1500000 [2:04:27<838:08:38,  2.01s/it]{'loss': 0.5531, 'grad_norm': 1.6919411420822144, 'learning_rate': 4.916000000000001e-07, 'epoch': 2461.0}
  0%|          | 2462/1500000 [2:04:29<823:04:44,  1.98s/it]                                                              0%|          | 2462/1500000 [2:04:29<823:04:44,  1.98s/it]{'loss': 0.5472, 'grad_norm': 2.828094720840454, 'learning_rate': 4.918e-07, 'epoch': 2462.0}
  0%|          | 2463/1500000 [2:04:30<807:43:30,  1.94s/it]                                                              0%|          | 2463/1500000 [2:04:30<807:43:30,  1.94s/it]{'loss': 0.552, 'grad_norm': 2.899387836456299, 'learning_rate': 4.92e-07, 'epoch': 2463.0}
  0%|          | 2464/1500000 [2:04:33<830:03:59,  2.00s/it]                                                              0%|          | 2464/1500000 [2:04:33<830:03:59,  2.00s/it]{'loss': 0.5548, 'grad_norm': 10.632990837097168, 'learning_rate': 4.922e-07, 'epoch': 2464.0}
  0%|          | 2465/1500000 [2:04:35<848:29:49,  2.04s/it]                                                              0%|          | 2465/1500000 [2:04:35<848:29:49,  2.04s/it]{'loss': 0.5459, 'grad_norm': 3.7723989486694336, 'learning_rate': 4.923999999999999e-07, 'epoch': 2465.0}
  0%|          | 2466/1500000 [2:04:37<824:36:54,  1.98s/it]                                                              0%|          | 2466/1500000 [2:04:37<824:36:54,  1.98s/it]{'loss': 0.5389, 'grad_norm': 1.7870503664016724, 'learning_rate': 4.926000000000001e-07, 'epoch': 2466.0}
  0%|          | 2467/1500000 [2:04:38<807:01:00,  1.94s/it]                                                              0%|          | 2467/1500000 [2:04:38<807:01:00,  1.94s/it]{'loss': 0.5337, 'grad_norm': 2.366849660873413, 'learning_rate': 4.928e-07, 'epoch': 2467.0}
  0%|          | 2468/1500000 [2:04:40<798:13:15,  1.92s/it]                                                              0%|          | 2468/1500000 [2:04:40<798:13:15,  1.92s/it]{'loss': 0.5364, 'grad_norm': 2.208486795425415, 'learning_rate': 4.930000000000001e-07, 'epoch': 2468.0}
  0%|          | 2469/1500000 [2:04:42<787:07:46,  1.89s/it]                                                              0%|          | 2469/1500000 [2:04:42<787:07:46,  1.89s/it]{'loss': 0.5538, 'grad_norm': 13.1982421875, 'learning_rate': 4.932e-07, 'epoch': 2469.0}
  0%|          | 2470/1500000 [2:04:44<782:51:18,  1.88s/it]                                                              0%|          | 2470/1500000 [2:04:44<782:51:18,  1.88s/it]{'loss': 0.5419, 'grad_norm': 1.9399350881576538, 'learning_rate': 4.934e-07, 'epoch': 2470.0}
  0%|          | 2471/1500000 [2:04:46<811:30:43,  1.95s/it]                                                              0%|          | 2471/1500000 [2:04:46<811:30:43,  1.95s/it]{'loss': 0.5419, 'grad_norm': 1.4952881336212158, 'learning_rate': 4.936e-07, 'epoch': 2471.0}
  0%|          | 2472/1500000 [2:04:48<821:04:37,  1.97s/it]                                                              0%|          | 2472/1500000 [2:04:48<821:04:37,  1.97s/it]{'loss': 0.5452, 'grad_norm': 1.9176818132400513, 'learning_rate': 4.937999999999999e-07, 'epoch': 2472.0}
  0%|          | 2473/1500000 [2:04:50<809:49:56,  1.95s/it]                                                              0%|          | 2473/1500000 [2:04:50<809:49:56,  1.95s/it]{'loss': 0.5503, 'grad_norm': 2.935825824737549, 'learning_rate': 4.940000000000001e-07, 'epoch': 2473.0}
  0%|          | 2474/1500000 [2:04:52<831:02:21,  2.00s/it]                                                              0%|          | 2474/1500000 [2:04:52<831:02:21,  2.00s/it]{'loss': 0.5432, 'grad_norm': 1.510414481163025, 'learning_rate': 4.942e-07, 'epoch': 2474.0}
  0%|          | 2475/1500000 [2:04:54<813:39:44,  1.96s/it]                                                              0%|          | 2475/1500000 [2:04:54<813:39:44,  1.96s/it]{'loss': 0.5423, 'grad_norm': 1.405583143234253, 'learning_rate': 4.944000000000001e-07, 'epoch': 2475.0}
  0%|          | 2476/1500000 [2:04:56<799:55:39,  1.92s/it]                                                              0%|          | 2476/1500000 [2:04:56<799:55:39,  1.92s/it]{'loss': 0.5396, 'grad_norm': 1.623682975769043, 'learning_rate': 4.946e-07, 'epoch': 2476.0}
  0%|          | 2477/1500000 [2:04:58<831:13:29,  2.00s/it]                                                              0%|          | 2477/1500000 [2:04:58<831:13:29,  2.00s/it]{'loss': 0.5417, 'grad_norm': 1.4678634405136108, 'learning_rate': 4.948e-07, 'epoch': 2477.0}
  0%|          | 2478/1500000 [2:05:00<814:14:33,  1.96s/it]                                                              0%|          | 2478/1500000 [2:05:00<814:14:33,  1.96s/it]{'loss': 0.5379, 'grad_norm': 1.2148085832595825, 'learning_rate': 4.95e-07, 'epoch': 2478.0}
  0%|          | 2479/1500000 [2:05:02<801:27:22,  1.93s/it]                                                              0%|          | 2479/1500000 [2:05:02<801:27:22,  1.93s/it]{'loss': 0.5363, 'grad_norm': 2.1675682067871094, 'learning_rate': 4.952e-07, 'epoch': 2479.0}
  0%|          | 2480/1500000 [2:05:04<795:32:33,  1.91s/it]                                                              0%|          | 2480/1500000 [2:05:04<795:32:33,  1.91s/it]{'loss': 0.5259, 'grad_norm': 3.759591579437256, 'learning_rate': 4.954000000000001e-07, 'epoch': 2480.0}
  0%|          | 2481/1500000 [2:05:05<788:57:37,  1.90s/it]                                                              0%|          | 2481/1500000 [2:05:05<788:57:37,  1.90s/it]{'loss': 0.5391, 'grad_norm': 4.041705131530762, 'learning_rate': 4.956e-07, 'epoch': 2481.0}
  0%|          | 2482/1500000 [2:05:07<781:44:04,  1.88s/it]                                                              0%|          | 2482/1500000 [2:05:07<781:44:04,  1.88s/it]{'loss': 0.5336, 'grad_norm': 30.901823043823242, 'learning_rate': 4.958e-07, 'epoch': 2482.0}
  0%|          | 2483/1500000 [2:05:09<778:01:00,  1.87s/it]                                                              0%|          | 2483/1500000 [2:05:09<778:01:00,  1.87s/it]{'loss': 0.5271, 'grad_norm': 2.726506471633911, 'learning_rate': 4.96e-07, 'epoch': 2483.0}
  0%|          | 2484/1500000 [2:05:11<811:07:08,  1.95s/it]                                                              0%|          | 2484/1500000 [2:05:11<811:07:08,  1.95s/it]{'loss': 0.5338, 'grad_norm': 3.646456718444824, 'learning_rate': 4.962e-07, 'epoch': 2484.0}
  0%|          | 2485/1500000 [2:05:13<794:44:50,  1.91s/it]                                                              0%|          | 2485/1500000 [2:05:13<794:44:50,  1.91s/it]{'loss': 0.5382, 'grad_norm': 1.8096617460250854, 'learning_rate': 4.964e-07, 'epoch': 2485.0}
  0%|          | 2486/1500000 [2:05:15<786:25:09,  1.89s/it]                                                              0%|          | 2486/1500000 [2:05:15<786:25:09,  1.89s/it]{'loss': 0.5463, 'grad_norm': 2.1950480937957764, 'learning_rate': 4.966e-07, 'epoch': 2486.0}
  0%|          | 2487/1500000 [2:05:17<787:57:10,  1.89s/it]                                                              0%|          | 2487/1500000 [2:05:17<787:57:10,  1.89s/it]{'loss': 0.5285, 'grad_norm': 1.5391472578048706, 'learning_rate': 4.968e-07, 'epoch': 2487.0}
  0%|          | 2488/1500000 [2:05:19<783:16:34,  1.88s/it]                                                              0%|          | 2488/1500000 [2:05:19<783:16:34,  1.88s/it]{'loss': 0.5308, 'grad_norm': 1.344005823135376, 'learning_rate': 4.970000000000001e-07, 'epoch': 2488.0}
  0%|          | 2489/1500000 [2:05:21<835:53:59,  2.01s/it]                                                              0%|          | 2489/1500000 [2:05:21<835:53:59,  2.01s/it]{'loss': 0.5244, 'grad_norm': 3.1479713916778564, 'learning_rate': 4.972e-07, 'epoch': 2489.0}
  0%|          | 2490/1500000 [2:05:23<820:48:12,  1.97s/it]                                                              0%|          | 2490/1500000 [2:05:23<820:48:12,  1.97s/it]{'loss': 0.5254, 'grad_norm': 1.4987051486968994, 'learning_rate': 4.974e-07, 'epoch': 2490.0}
  0%|          | 2491/1500000 [2:05:25<810:32:27,  1.95s/it]                                                              0%|          | 2491/1500000 [2:05:25<810:32:27,  1.95s/it]{'loss': 0.521, 'grad_norm': 2.1109862327575684, 'learning_rate': 4.976e-07, 'epoch': 2491.0}
  0%|          | 2492/1500000 [2:05:27<807:12:20,  1.94s/it]                                                              0%|          | 2492/1500000 [2:05:27<807:12:20,  1.94s/it]{'loss': 0.5246, 'grad_norm': 2.1550333499908447, 'learning_rate': 4.978e-07, 'epoch': 2492.0}
  0%|          | 2493/1500000 [2:05:29<797:52:27,  1.92s/it]                                                              0%|          | 2493/1500000 [2:05:29<797:52:27,  1.92s/it]{'loss': 0.5183, 'grad_norm': 5.824568748474121, 'learning_rate': 4.98e-07, 'epoch': 2493.0}
  0%|          | 2494/1500000 [2:05:30<796:51:12,  1.92s/it]                                                              0%|          | 2494/1500000 [2:05:30<796:51:12,  1.92s/it]{'loss': 0.5218, 'grad_norm': 1.2869114875793457, 'learning_rate': 4.982e-07, 'epoch': 2494.0}
  0%|          | 2495/1500000 [2:05:32<785:51:49,  1.89s/it]                                                              0%|          | 2495/1500000 [2:05:32<785:51:49,  1.89s/it]{'loss': 0.5215, 'grad_norm': 11.164558410644531, 'learning_rate': 4.984000000000001e-07, 'epoch': 2495.0}
  0%|          | 2496/1500000 [2:05:34<782:08:40,  1.88s/it]                                                              0%|          | 2496/1500000 [2:05:34<782:08:40,  1.88s/it]{'loss': 0.5298, 'grad_norm': 2.6906702518463135, 'learning_rate': 4.986e-07, 'epoch': 2496.0}
  0%|          | 2497/1500000 [2:05:36<775:42:20,  1.86s/it]                                                              0%|          | 2497/1500000 [2:05:36<775:42:20,  1.86s/it]{'loss': 0.5223, 'grad_norm': 2.4807469844818115, 'learning_rate': 4.988000000000001e-07, 'epoch': 2497.0}
  0%|          | 2498/1500000 [2:05:38<772:30:41,  1.86s/it]                                                              0%|          | 2498/1500000 [2:05:38<772:30:41,  1.86s/it]{'loss': 0.5194, 'grad_norm': 2.7171294689178467, 'learning_rate': 4.99e-07, 'epoch': 2498.0}
  0%|          | 2499/1500000 [2:05:40<776:56:59,  1.87s/it]                                                              0%|          | 2499/1500000 [2:05:40<776:56:59,  1.87s/it]{'loss': 0.5197, 'grad_norm': 6.909831523895264, 'learning_rate': 4.991999999999999e-07, 'epoch': 2499.0}
  0%|          | 2500/1500000 [2:05:42<776:49:13,  1.87s/it]                                                              0%|          | 2500/1500000 [2:05:42<776:49:13,  1.87s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.5273, 'grad_norm': 2.5024538040161133, 'learning_rate': 4.994e-07, 'epoch': 2500.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.49it/s][A
 43%|████▎     | 3/7 [00:02<00:03,  1.08it/s][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.20s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.43s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.56s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.16s/it][A                                                            
                                             [A  0%|          | 2500/1500000 [2:06:26<776:49:13,  1.87s/it]
100%|██████████| 7/7 [00:08<00:00,  1.16s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2300] due to args.save_total_limit
{'eval_loss': 3.309995412826538, 'eval_wer': 1.0841550103187343, 'eval_cer': 0.7555316232621891, 'eval_runtime': 16.7999, 'eval_samples_per_second': 58.512, 'eval_steps_per_second': 0.417, 'epoch': 2500.0}
  0%|          | 2501/1500000 [2:06:44<8338:05:17, 20.04s/it]                                                               0%|          | 2501/1500000 [2:06:44<8338:05:17, 20.04s/it]{'loss': 0.528, 'grad_norm': 1.4226524829864502, 'learning_rate': 4.996e-07, 'epoch': 2501.0}
  0%|          | 2502/1500000 [2:06:47<6157:02:35, 14.80s/it]                                                               0%|          | 2502/1500000 [2:06:47<6157:02:35, 14.80s/it]{'loss': 0.5165, 'grad_norm': 1.6822021007537842, 'learning_rate': 4.998000000000001e-07, 'epoch': 2502.0}
  0%|          | 2503/1500000 [2:06:49<4632:41:13, 11.14s/it]                                                               0%|          | 2503/1500000 [2:06:49<4632:41:13, 11.14s/it]{'loss': 0.5103, 'grad_norm': 1.542283058166504, 'learning_rate': 5e-07, 'epoch': 2503.0}
  0%|          | 2504/1500000 [2:06:52<3601:23:35,  8.66s/it]                                                               0%|          | 2504/1500000 [2:06:52<3601:23:35,  8.66s/it]{'loss': 0.5194, 'grad_norm': 1.9313381910324097, 'learning_rate': 5.002e-07, 'epoch': 2504.0}
  0%|          | 2505/1500000 [2:06:55<2846:19:41,  6.84s/it]                                                               0%|          | 2505/1500000 [2:06:55<2846:19:41,  6.84s/it]{'loss': 0.5175, 'grad_norm': 1.8047493696212769, 'learning_rate': 5.004e-07, 'epoch': 2505.0}
  0%|          | 2506/1500000 [2:06:57<2316:27:05,  5.57s/it]                                                               0%|          | 2506/1500000 [2:06:57<2316:27:05,  5.57s/it]{'loss': 0.5135, 'grad_norm': 1.5763168334960938, 'learning_rate': 5.006e-07, 'epoch': 2506.0}
  0%|          | 2507/1500000 [2:07:00<1944:01:57,  4.67s/it]                                                               0%|          | 2507/1500000 [2:07:00<1944:01:57,  4.67s/it]{'loss': 0.5187, 'grad_norm': 1.7111130952835083, 'learning_rate': 5.008e-07, 'epoch': 2507.0}
  0%|          | 2508/1500000 [2:07:02<1685:16:34,  4.05s/it]                                                               0%|          | 2508/1500000 [2:07:02<1685:16:34,  4.05s/it]{'loss': 0.5154, 'grad_norm': 1.6297520399093628, 'learning_rate': 5.01e-07, 'epoch': 2508.0}
  0%|          | 2509/1500000 [2:07:05<1511:36:16,  3.63s/it]                                                               0%|          | 2509/1500000 [2:07:05<1511:36:16,  3.63s/it]{'loss': 0.5016, 'grad_norm': 2.1949267387390137, 'learning_rate': 5.012000000000001e-07, 'epoch': 2509.0}
  0%|          | 2510/1500000 [2:07:08<1403:57:02,  3.38s/it]                                                               0%|          | 2510/1500000 [2:07:08<1403:57:02,  3.38s/it]{'loss': 0.509, 'grad_norm': 2.92366099357605, 'learning_rate': 5.014e-07, 'epoch': 2510.0}
  0%|          | 2511/1500000 [2:07:10<1290:50:10,  3.10s/it]                                                               0%|          | 2511/1500000 [2:07:10<1290:50:10,  3.10s/it]{'loss': 0.5067, 'grad_norm': 10.807188034057617, 'learning_rate': 5.016e-07, 'epoch': 2511.0}
  0%|          | 2512/1500000 [2:07:13<1222:28:56,  2.94s/it]                                                               0%|          | 2512/1500000 [2:07:13<1222:28:56,  2.94s/it]{'loss': 0.4997, 'grad_norm': 1.2740187644958496, 'learning_rate': 5.018e-07, 'epoch': 2512.0}
  0%|          | 2513/1500000 [2:07:16<1191:35:12,  2.86s/it]                                                               0%|          | 2513/1500000 [2:07:16<1191:35:12,  2.86s/it]{'loss': 0.5132, 'grad_norm': 1.8360679149627686, 'learning_rate': 5.02e-07, 'epoch': 2513.0}
  0%|          | 2514/1500000 [2:07:18<1187:42:59,  2.86s/it]                                                               0%|          | 2514/1500000 [2:07:18<1187:42:59,  2.86s/it]{'loss': 0.5203, 'grad_norm': 1.8624136447906494, 'learning_rate': 5.022e-07, 'epoch': 2514.0}
  0%|          | 2515/1500000 [2:07:21<1155:29:04,  2.78s/it]                                                               0%|          | 2515/1500000 [2:07:21<1155:29:04,  2.78s/it]{'loss': 0.5105, 'grad_norm': 1.799619197845459, 'learning_rate': 5.024e-07, 'epoch': 2515.0}
  0%|          | 2516/1500000 [2:07:24<1136:00:53,  2.73s/it]                                                               0%|          | 2516/1500000 [2:07:24<1136:00:53,  2.73s/it]{'loss': 0.5084, 'grad_norm': 3.415034294128418, 'learning_rate': 5.026e-07, 'epoch': 2516.0}
  0%|          | 2517/1500000 [2:07:26<1113:35:46,  2.68s/it]                                                               0%|          | 2517/1500000 [2:07:26<1113:35:46,  2.68s/it]{'loss': 0.5048, 'grad_norm': 3.2151002883911133, 'learning_rate': 5.028000000000001e-07, 'epoch': 2517.0}
  0%|          | 2518/1500000 [2:07:29<1100:09:23,  2.64s/it]                                                               0%|          | 2518/1500000 [2:07:29<1100:09:23,  2.64s/it]{'loss': 0.5067, 'grad_norm': 1.4404247999191284, 'learning_rate': 5.03e-07, 'epoch': 2518.0}
  0%|          | 2519/1500000 [2:07:32<1120:14:43,  2.69s/it]                                                               0%|          | 2519/1500000 [2:07:32<1120:14:43,  2.69s/it]{'loss': 0.4966, 'grad_norm': 4.042171478271484, 'learning_rate': 5.032e-07, 'epoch': 2519.0}
  0%|          | 2520/1500000 [2:07:34<1116:13:33,  2.68s/it]                                                               0%|          | 2520/1500000 [2:07:34<1116:13:33,  2.68s/it]{'loss': 0.4918, 'grad_norm': 1.7964104413986206, 'learning_rate': 5.034e-07, 'epoch': 2520.0}
  0%|          | 2521/1500000 [2:07:37<1111:41:45,  2.67s/it]                                                               0%|          | 2521/1500000 [2:07:37<1111:41:45,  2.67s/it]{'loss': 0.5045, 'grad_norm': 1.425638198852539, 'learning_rate': 5.035999999999999e-07, 'epoch': 2521.0}
  0%|          | 2522/1500000 [2:07:39<1095:43:18,  2.63s/it]                                                               0%|          | 2522/1500000 [2:07:39<1095:43:18,  2.63s/it]{'loss': 0.4889, 'grad_norm': 1.6864991188049316, 'learning_rate': 5.038e-07, 'epoch': 2522.0}
  0%|          | 2523/1500000 [2:07:42<1113:15:54,  2.68s/it]                                                               0%|          | 2523/1500000 [2:07:42<1113:15:54,  2.68s/it]{'loss': 0.493, 'grad_norm': 1.810400128364563, 'learning_rate': 5.04e-07, 'epoch': 2523.0}
  0%|          | 2524/1500000 [2:07:45<1135:58:26,  2.73s/it]                                                               0%|          | 2524/1500000 [2:07:45<1135:58:26,  2.73s/it]{'loss': 0.4987, 'grad_norm': 1.6160813570022583, 'learning_rate': 5.042000000000001e-07, 'epoch': 2524.0}
  0%|          | 2525/1500000 [2:07:48<1117:00:53,  2.69s/it]                                                               0%|          | 2525/1500000 [2:07:48<1117:00:53,  2.69s/it]{'loss': 0.5008, 'grad_norm': 1.6161398887634277, 'learning_rate': 5.044e-07, 'epoch': 2525.0}
  0%|          | 2526/1500000 [2:07:50<1101:08:17,  2.65s/it]                                                               0%|          | 2526/1500000 [2:07:50<1101:08:17,  2.65s/it]{'loss': 0.4972, 'grad_norm': 3.5109314918518066, 'learning_rate': 5.046000000000001e-07, 'epoch': 2526.0}
  0%|          | 2527/1500000 [2:07:53<1094:54:10,  2.63s/it]                                                               0%|          | 2527/1500000 [2:07:53<1094:54:10,  2.63s/it]{'loss': 0.491, 'grad_norm': 8.342755317687988, 'learning_rate': 5.048e-07, 'epoch': 2527.0}
  0%|          | 2528/1500000 [2:07:55<1088:09:55,  2.62s/it]                                                               0%|          | 2528/1500000 [2:07:55<1088:09:55,  2.62s/it]{'loss': 0.5056, 'grad_norm': 2.2492663860321045, 'learning_rate': 5.049999999999999e-07, 'epoch': 2528.0}
  0%|          | 2529/1500000 [2:07:58<1081:53:14,  2.60s/it]                                                               0%|          | 2529/1500000 [2:07:58<1081:53:14,  2.60s/it]{'loss': 0.4967, 'grad_norm': 1.1764934062957764, 'learning_rate': 5.052e-07, 'epoch': 2529.0}
  0%|          | 2530/1500000 [2:08:00<1080:26:38,  2.60s/it]                                                               0%|          | 2530/1500000 [2:08:01<1080:26:38,  2.60s/it]{'loss': 0.4928, 'grad_norm': 2.233001708984375, 'learning_rate': 5.054e-07, 'epoch': 2530.0}
  0%|          | 2531/1500000 [2:08:03<1079:40:43,  2.60s/it]                                                               0%|          | 2531/1500000 [2:08:03<1079:40:43,  2.60s/it]{'loss': 0.4937, 'grad_norm': 1.8232110738754272, 'learning_rate': 5.056000000000001e-07, 'epoch': 2531.0}
  0%|          | 2532/1500000 [2:08:06<1073:21:59,  2.58s/it]                                                               0%|          | 2532/1500000 [2:08:06<1073:21:59,  2.58s/it]{'loss': 0.4896, 'grad_norm': 1.3016471862792969, 'learning_rate': 5.058e-07, 'epoch': 2532.0}
  0%|          | 2533/1500000 [2:08:08<1073:36:03,  2.58s/it]                                                               0%|          | 2533/1500000 [2:08:08<1073:36:03,  2.58s/it]{'loss': 0.5035, 'grad_norm': 3.600074291229248, 'learning_rate': 5.06e-07, 'epoch': 2533.0}
  0%|          | 2534/1500000 [2:08:11<1070:39:53,  2.57s/it]                                                               0%|          | 2534/1500000 [2:08:11<1070:39:53,  2.57s/it]{'loss': 0.4964, 'grad_norm': 1.5835705995559692, 'learning_rate': 5.062e-07, 'epoch': 2534.0}
  0%|          | 2535/1500000 [2:08:13<1066:19:56,  2.56s/it]                                                               0%|          | 2535/1500000 [2:08:13<1066:19:56,  2.56s/it]{'loss': 0.4898, 'grad_norm': 1.4651458263397217, 'learning_rate': 5.064e-07, 'epoch': 2535.0}
  0%|          | 2536/1500000 [2:08:16<1099:43:30,  2.64s/it]                                                               0%|          | 2536/1500000 [2:08:16<1099:43:30,  2.64s/it]{'loss': 0.4833, 'grad_norm': 1.314706802368164, 'learning_rate': 5.066e-07, 'epoch': 2536.0}
  0%|          | 2537/1500000 [2:08:19<1091:52:03,  2.62s/it]                                                               0%|          | 2537/1500000 [2:08:19<1091:52:03,  2.62s/it]{'loss': 0.4895, 'grad_norm': 4.047765731811523, 'learning_rate': 5.068e-07, 'epoch': 2537.0}
  0%|          | 2538/1500000 [2:08:21<1087:46:31,  2.62s/it]                                                               0%|          | 2538/1500000 [2:08:21<1087:46:31,  2.62s/it]{'loss': 0.4871, 'grad_norm': 2.9647133350372314, 'learning_rate': 5.07e-07, 'epoch': 2538.0}
  0%|          | 2539/1500000 [2:08:24<1082:42:40,  2.60s/it]                                                               0%|          | 2539/1500000 [2:08:24<1082:42:40,  2.60s/it]{'loss': 0.4828, 'grad_norm': 4.404731750488281, 'learning_rate': 5.072e-07, 'epoch': 2539.0}
  0%|          | 2540/1500000 [2:08:26<1075:21:17,  2.59s/it]                                                               0%|          | 2540/1500000 [2:08:26<1075:21:17,  2.59s/it]{'loss': 0.4819, 'grad_norm': 1.7403134107589722, 'learning_rate': 5.074e-07, 'epoch': 2540.0}
  0%|          | 2541/1500000 [2:08:29<1087:15:32,  2.61s/it]                                                               0%|          | 2541/1500000 [2:08:29<1087:15:32,  2.61s/it]{'loss': 0.4846, 'grad_norm': 4.205253601074219, 'learning_rate': 5.076e-07, 'epoch': 2541.0}
  0%|          | 2542/1500000 [2:08:32<1083:07:45,  2.60s/it]                                                               0%|          | 2542/1500000 [2:08:32<1083:07:45,  2.60s/it]{'loss': 0.4812, 'grad_norm': 2.8198466300964355, 'learning_rate': 5.078e-07, 'epoch': 2542.0}
  0%|          | 2543/1500000 [2:08:34<1084:48:50,  2.61s/it]                                                               0%|          | 2543/1500000 [2:08:34<1084:48:50,  2.61s/it]{'loss': 0.4863, 'grad_norm': 3.772848606109619, 'learning_rate': 5.08e-07, 'epoch': 2543.0}
  0%|          | 2544/1500000 [2:08:37<1073:30:38,  2.58s/it]                                                               0%|          | 2544/1500000 [2:08:37<1073:30:38,  2.58s/it]{'loss': 0.4821, 'grad_norm': 1.502445936203003, 'learning_rate': 5.082000000000001e-07, 'epoch': 2544.0}
  0%|          | 2545/1500000 [2:08:39<1074:36:45,  2.58s/it]                                                               0%|          | 2545/1500000 [2:08:39<1074:36:45,  2.58s/it]{'loss': 0.4789, 'grad_norm': 9.738077163696289, 'learning_rate': 5.084e-07, 'epoch': 2545.0}
  0%|          | 2546/1500000 [2:08:42<1088:04:54,  2.62s/it]                                                               0%|          | 2546/1500000 [2:08:42<1088:04:54,  2.62s/it]{'loss': 0.4754, 'grad_norm': 3.748433828353882, 'learning_rate': 5.086e-07, 'epoch': 2546.0}
  0%|          | 2547/1500000 [2:08:45<1082:52:43,  2.60s/it]                                                               0%|          | 2547/1500000 [2:08:45<1082:52:43,  2.60s/it]{'loss': 0.4816, 'grad_norm': 1.7785725593566895, 'learning_rate': 5.088e-07, 'epoch': 2547.0}
  0%|          | 2548/1500000 [2:08:47<1082:31:05,  2.60s/it]                                                               0%|          | 2548/1500000 [2:08:47<1082:31:05,  2.60s/it]{'loss': 0.4736, 'grad_norm': 2.932903528213501, 'learning_rate': 5.09e-07, 'epoch': 2548.0}
  0%|          | 2549/1500000 [2:08:50<1068:46:48,  2.57s/it]                                                               0%|          | 2549/1500000 [2:08:50<1068:46:48,  2.57s/it]{'loss': 0.4775, 'grad_norm': 2.123818874359131, 'learning_rate': 5.092e-07, 'epoch': 2549.0}
  0%|          | 2550/1500000 [2:08:52<1073:25:18,  2.58s/it]                                                               0%|          | 2550/1500000 [2:08:52<1073:25:18,  2.58s/it]{'loss': 0.4804, 'grad_norm': 2.4170830249786377, 'learning_rate': 5.093999999999999e-07, 'epoch': 2550.0}
  0%|          | 2551/1500000 [2:08:55<1056:36:42,  2.54s/it]                                                               0%|          | 2551/1500000 [2:08:55<1056:36:42,  2.54s/it]{'loss': 0.4664, 'grad_norm': 1.9723601341247559, 'learning_rate': 5.096000000000001e-07, 'epoch': 2551.0}
  0%|          | 2552/1500000 [2:08:58<1104:19:26,  2.65s/it]                                                               0%|          | 2552/1500000 [2:08:58<1104:19:26,  2.65s/it]{'loss': 0.4731, 'grad_norm': 3.2638792991638184, 'learning_rate': 5.098e-07, 'epoch': 2552.0}
  0%|          | 2553/1500000 [2:09:01<1134:24:16,  2.73s/it]                                                               0%|          | 2553/1500000 [2:09:01<1134:24:16,  2.73s/it]{'loss': 0.4796, 'grad_norm': 2.0098536014556885, 'learning_rate': 5.100000000000001e-07, 'epoch': 2553.0}
  0%|          | 2554/1500000 [2:09:04<1163:20:04,  2.80s/it]                                                               0%|          | 2554/1500000 [2:09:04<1163:20:04,  2.80s/it]{'loss': 0.4712, 'grad_norm': 9.108081817626953, 'learning_rate': 5.102e-07, 'epoch': 2554.0}
  0%|          | 2555/1500000 [2:09:07<1177:28:17,  2.83s/it]                                                               0%|          | 2555/1500000 [2:09:07<1177:28:17,  2.83s/it]{'loss': 0.4766, 'grad_norm': 2.933126211166382, 'learning_rate': 5.103999999999999e-07, 'epoch': 2555.0}
  0%|          | 2556/1500000 [2:09:09<1173:20:15,  2.82s/it]                                                               0%|          | 2556/1500000 [2:09:09<1173:20:15,  2.82s/it]{'loss': 0.4642, 'grad_norm': 8.782339096069336, 'learning_rate': 5.106e-07, 'epoch': 2556.0}
  0%|          | 2557/1500000 [2:09:12<1183:00:47,  2.84s/it]                                                               0%|          | 2557/1500000 [2:09:12<1183:00:47,  2.84s/it]{'loss': 0.4731, 'grad_norm': 1.3987457752227783, 'learning_rate': 5.107999999999999e-07, 'epoch': 2557.0}
  0%|          | 2558/1500000 [2:09:15<1149:03:54,  2.76s/it]                                                               0%|          | 2558/1500000 [2:09:15<1149:03:54,  2.76s/it]{'loss': 0.4696, 'grad_norm': 2.472795248031616, 'learning_rate': 5.110000000000001e-07, 'epoch': 2558.0}
  0%|          | 2559/1500000 [2:09:17<1125:33:16,  2.71s/it]                                                               0%|          | 2559/1500000 [2:09:17<1125:33:16,  2.71s/it]{'loss': 0.4647, 'grad_norm': 1.3389426469802856, 'learning_rate': 5.112e-07, 'epoch': 2559.0}
  0%|          | 2560/1500000 [2:09:20<1112:38:39,  2.67s/it]                                                               0%|          | 2560/1500000 [2:09:20<1112:38:39,  2.67s/it]{'loss': 0.4686, 'grad_norm': 2.631194591522217, 'learning_rate': 5.114000000000001e-07, 'epoch': 2560.0}
  0%|          | 2561/1500000 [2:09:23<1106:47:52,  2.66s/it]                                                               0%|          | 2561/1500000 [2:09:23<1106:47:52,  2.66s/it]{'loss': 0.4672, 'grad_norm': 2.3441834449768066, 'learning_rate': 5.116e-07, 'epoch': 2561.0}
  0%|          | 2562/1500000 [2:09:25<1100:09:43,  2.64s/it]                                                               0%|          | 2562/1500000 [2:09:25<1100:09:43,  2.64s/it]{'loss': 0.4662, 'grad_norm': 1.3720848560333252, 'learning_rate': 5.118e-07, 'epoch': 2562.0}
  0%|          | 2563/1500000 [2:09:28<1112:42:57,  2.68s/it]                                                               0%|          | 2563/1500000 [2:09:28<1112:42:57,  2.68s/it]{'loss': 0.4719, 'grad_norm': 2.7496819496154785, 'learning_rate': 5.12e-07, 'epoch': 2563.0}
  0%|          | 2564/1500000 [2:09:31<1131:45:59,  2.72s/it]                                                               0%|          | 2564/1500000 [2:09:31<1131:45:59,  2.72s/it]{'loss': 0.4725, 'grad_norm': 3.6184866428375244, 'learning_rate': 5.122e-07, 'epoch': 2564.0}
  0%|          | 2565/1500000 [2:09:33<1114:14:53,  2.68s/it]                                                               0%|          | 2565/1500000 [2:09:33<1114:14:53,  2.68s/it]{'loss': 0.4644, 'grad_norm': 8.302617073059082, 'learning_rate': 5.124000000000001e-07, 'epoch': 2565.0}
  0%|          | 2566/1500000 [2:09:36<1088:58:54,  2.62s/it]                                                               0%|          | 2566/1500000 [2:09:36<1088:58:54,  2.62s/it]{'loss': 0.4601, 'grad_norm': 1.1581798791885376, 'learning_rate': 5.126e-07, 'epoch': 2566.0}
  0%|          | 2567/1500000 [2:09:39<1111:08:13,  2.67s/it]                                                               0%|          | 2567/1500000 [2:09:39<1111:08:13,  2.67s/it]{'loss': 0.4559, 'grad_norm': 1.4809112548828125, 'learning_rate': 5.128e-07, 'epoch': 2567.0}
  0%|          | 2568/1500000 [2:09:41<1104:08:07,  2.65s/it]                                                               0%|          | 2568/1500000 [2:09:41<1104:08:07,  2.65s/it]{'loss': 0.4578, 'grad_norm': 1.9260196685791016, 'learning_rate': 5.13e-07, 'epoch': 2568.0}
  0%|          | 2569/1500000 [2:09:44<1098:25:40,  2.64s/it]                                                               0%|          | 2569/1500000 [2:09:44<1098:25:40,  2.64s/it]{'loss': 0.4565, 'grad_norm': 7.69696044921875, 'learning_rate': 5.132e-07, 'epoch': 2569.0}
  0%|          | 2570/1500000 [2:09:46<1084:03:41,  2.61s/it]                                                               0%|          | 2570/1500000 [2:09:46<1084:03:41,  2.61s/it]{'loss': 0.4544, 'grad_norm': 6.448311805725098, 'learning_rate': 5.134e-07, 'epoch': 2570.0}
  0%|          | 2571/1500000 [2:09:49<1075:36:10,  2.59s/it]                                                               0%|          | 2571/1500000 [2:09:49<1075:36:10,  2.59s/it]{'loss': 0.4583, 'grad_norm': 1.690874457359314, 'learning_rate': 5.136e-07, 'epoch': 2571.0}
  0%|          | 2572/1500000 [2:09:51<1065:50:34,  2.56s/it]                                                               0%|          | 2572/1500000 [2:09:51<1065:50:34,  2.56s/it]{'loss': 0.4546, 'grad_norm': 5.963565826416016, 'learning_rate': 5.138e-07, 'epoch': 2572.0}
  0%|          | 2573/1500000 [2:09:54<1069:44:30,  2.57s/it]                                                               0%|          | 2573/1500000 [2:09:54<1069:44:30,  2.57s/it]{'loss': 0.4529, 'grad_norm': 1.6476266384124756, 'learning_rate': 5.140000000000001e-07, 'epoch': 2573.0}
  0%|          | 2574/1500000 [2:09:57<1065:12:36,  2.56s/it]                                                               0%|          | 2574/1500000 [2:09:57<1065:12:36,  2.56s/it]{'loss': 0.4537, 'grad_norm': 3.847970724105835, 'learning_rate': 5.142e-07, 'epoch': 2574.0}
  0%|          | 2575/1500000 [2:09:59<1068:08:03,  2.57s/it]                                                               0%|          | 2575/1500000 [2:09:59<1068:08:03,  2.57s/it]{'loss': 0.4565, 'grad_norm': 1.8939764499664307, 'learning_rate': 5.144e-07, 'epoch': 2575.0}
  0%|          | 2576/1500000 [2:10:02<1063:57:16,  2.56s/it]                                                               0%|          | 2576/1500000 [2:10:02<1063:57:16,  2.56s/it]{'loss': 0.4507, 'grad_norm': 9.830227851867676, 'learning_rate': 5.146e-07, 'epoch': 2576.0}
  0%|          | 2577/1500000 [2:10:04<1070:47:29,  2.57s/it]                                                               0%|          | 2577/1500000 [2:10:04<1070:47:29,  2.57s/it]{'loss': 0.4647, 'grad_norm': 1.7573248147964478, 'learning_rate': 5.148e-07, 'epoch': 2577.0}
  0%|          | 2578/1500000 [2:10:07<1072:34:17,  2.58s/it]                                                               0%|          | 2578/1500000 [2:10:07<1072:34:17,  2.58s/it]{'loss': 0.4745, 'grad_norm': 3.3988630771636963, 'learning_rate': 5.15e-07, 'epoch': 2578.0}
  0%|          | 2579/1500000 [2:10:09<1076:08:39,  2.59s/it]                                                               0%|          | 2579/1500000 [2:10:09<1076:08:39,  2.59s/it]{'loss': 0.4526, 'grad_norm': 2.2443554401397705, 'learning_rate': 5.152e-07, 'epoch': 2579.0}
  0%|          | 2580/1500000 [2:10:12<1074:11:11,  2.58s/it]                                                               0%|          | 2580/1500000 [2:10:12<1074:11:11,  2.58s/it]{'loss': 0.4497, 'grad_norm': 2.0041117668151855, 'learning_rate': 5.154000000000001e-07, 'epoch': 2580.0}
  0%|          | 2581/1500000 [2:10:15<1075:29:17,  2.59s/it]                                                               0%|          | 2581/1500000 [2:10:15<1075:29:17,  2.59s/it]{'loss': 0.4524, 'grad_norm': 2.0184433460235596, 'learning_rate': 5.156e-07, 'epoch': 2581.0}
  0%|          | 2582/1500000 [2:10:17<1081:09:33,  2.60s/it]                                                               0%|          | 2582/1500000 [2:10:17<1081:09:33,  2.60s/it]{'loss': 0.4482, 'grad_norm': 1.3189871311187744, 'learning_rate': 5.158000000000001e-07, 'epoch': 2582.0}
  0%|          | 2583/1500000 [2:10:20<1072:43:06,  2.58s/it]                                                               0%|          | 2583/1500000 [2:10:20<1072:43:06,  2.58s/it]{'loss': 0.4608, 'grad_norm': 1.4435070753097534, 'learning_rate': 5.16e-07, 'epoch': 2583.0}
  0%|          | 2584/1500000 [2:10:22<1075:29:11,  2.59s/it]                                                               0%|          | 2584/1500000 [2:10:22<1075:29:11,  2.59s/it]{'loss': 0.456, 'grad_norm': 1.531225562095642, 'learning_rate': 5.161999999999999e-07, 'epoch': 2584.0}
  0%|          | 2585/1500000 [2:10:25<1098:30:07,  2.64s/it]                                                               0%|          | 2585/1500000 [2:10:25<1098:30:07,  2.64s/it]{'loss': 0.4462, 'grad_norm': 2.2265257835388184, 'learning_rate': 5.164e-07, 'epoch': 2585.0}
  0%|          | 2586/1500000 [2:10:28<1093:35:02,  2.63s/it]                                                               0%|          | 2586/1500000 [2:10:28<1093:35:02,  2.63s/it]{'loss': 0.4528, 'grad_norm': 1.4937165975570679, 'learning_rate': 5.166e-07, 'epoch': 2586.0}
  0%|          | 2587/1500000 [2:10:30<1087:56:07,  2.62s/it]                                                               0%|          | 2587/1500000 [2:10:30<1087:56:07,  2.62s/it]{'loss': 0.4485, 'grad_norm': 1.501063585281372, 'learning_rate': 5.168000000000001e-07, 'epoch': 2587.0}
  0%|          | 2588/1500000 [2:10:33<1116:49:06,  2.68s/it]                                                               0%|          | 2588/1500000 [2:10:33<1116:49:06,  2.68s/it]{'loss': 0.4633, 'grad_norm': 2.4214391708374023, 'learning_rate': 5.17e-07, 'epoch': 2588.0}
  0%|          | 2589/1500000 [2:10:36<1131:19:27,  2.72s/it]                                                               0%|          | 2589/1500000 [2:10:36<1131:19:27,  2.72s/it]{'loss': 0.4446, 'grad_norm': 2.3813583850860596, 'learning_rate': 5.172e-07, 'epoch': 2589.0}
  0%|          | 2590/1500000 [2:10:39<1141:49:34,  2.75s/it]                                                               0%|          | 2590/1500000 [2:10:39<1141:49:34,  2.75s/it]{'loss': 0.4424, 'grad_norm': 1.6538608074188232, 'learning_rate': 5.174e-07, 'epoch': 2590.0}
  0%|          | 2591/1500000 [2:10:42<1151:49:10,  2.77s/it]                                                               0%|          | 2591/1500000 [2:10:42<1151:49:10,  2.77s/it]{'loss': 0.4485, 'grad_norm': 2.0467772483825684, 'learning_rate': 5.176e-07, 'epoch': 2591.0}
  0%|          | 2592/1500000 [2:10:44<1128:11:38,  2.71s/it]                                                               0%|          | 2592/1500000 [2:10:44<1128:11:38,  2.71s/it]{'loss': 0.4567, 'grad_norm': 3.993276357650757, 'learning_rate': 5.178e-07, 'epoch': 2592.0}
  0%|          | 2593/1500000 [2:10:47<1136:32:39,  2.73s/it]                                                               0%|          | 2593/1500000 [2:10:47<1136:32:39,  2.73s/it]{'loss': 0.4394, 'grad_norm': 2.0622756481170654, 'learning_rate': 5.18e-07, 'epoch': 2593.0}
  0%|          | 2594/1500000 [2:10:50<1119:16:45,  2.69s/it]                                                               0%|          | 2594/1500000 [2:10:50<1119:16:45,  2.69s/it]{'loss': 0.4446, 'grad_norm': 2.983637809753418, 'learning_rate': 5.182000000000001e-07, 'epoch': 2594.0}
  0%|          | 2595/1500000 [2:10:52<1098:57:38,  2.64s/it]                                                               0%|          | 2595/1500000 [2:10:52<1098:57:38,  2.64s/it]{'loss': 0.4354, 'grad_norm': 1.619332194328308, 'learning_rate': 5.184e-07, 'epoch': 2595.0}
  0%|          | 2596/1500000 [2:10:55<1090:10:03,  2.62s/it]                                                               0%|          | 2596/1500000 [2:10:55<1090:10:03,  2.62s/it]{'loss': 0.4384, 'grad_norm': 3.1130197048187256, 'learning_rate': 5.186e-07, 'epoch': 2596.0}
  0%|          | 2597/1500000 [2:10:58<1114:11:00,  2.68s/it]                                                               0%|          | 2597/1500000 [2:10:58<1114:11:00,  2.68s/it]{'loss': 0.44, 'grad_norm': 4.604066371917725, 'learning_rate': 5.188e-07, 'epoch': 2597.0}
  0%|          | 2598/1500000 [2:11:00<1095:32:59,  2.63s/it]                                                               0%|          | 2598/1500000 [2:11:00<1095:32:59,  2.63s/it]{'loss': 0.4299, 'grad_norm': 3.0445799827575684, 'learning_rate': 5.19e-07, 'epoch': 2598.0}
  0%|          | 2599/1500000 [2:11:03<1117:32:23,  2.69s/it]                                                               0%|          | 2599/1500000 [2:11:03<1117:32:23,  2.69s/it]{'loss': 0.4377, 'grad_norm': 1.3232417106628418, 'learning_rate': 5.192e-07, 'epoch': 2599.0}
  0%|          | 2600/1500000 [2:11:05<1105:30:06,  2.66s/it]                                                               0%|          | 2600/1500000 [2:11:05<1105:30:06,  2.66s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.4467, 'grad_norm': 2.44267201423645, 'learning_rate': 5.194000000000001e-07, 'epoch': 2600.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.11it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.06s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.37s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.41s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.49s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.11s/it][A                                                             
                                             [A  0%|          | 2600/1500000 [2:11:34<1105:30:06,  2.66s/it]
100%|██████████| 7/7 [00:09<00:00,  1.11s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2500] due to args.save_total_limit
{'eval_loss': 3.3401780128479004, 'eval_wer': 1.0936711763357028, 'eval_cer': 0.7558498139808106, 'eval_runtime': 15.4743, 'eval_samples_per_second': 63.525, 'eval_steps_per_second': 0.452, 'epoch': 2600.0}
  0%|          | 2601/1500000 [2:11:51<6485:01:08, 15.59s/it]                                                               0%|          | 2601/1500000 [2:11:51<6485:01:08, 15.59s/it]{'loss': 0.4408, 'grad_norm': 1.9366613626480103, 'learning_rate': 5.196e-07, 'epoch': 2601.0}
  0%|          | 2602/1500000 [2:11:54<4852:34:47, 11.67s/it]                                                               0%|          | 2602/1500000 [2:11:54<4852:34:47, 11.67s/it]{'loss': 0.4383, 'grad_norm': 2.7523295879364014, 'learning_rate': 5.198e-07, 'epoch': 2602.0}
  0%|          | 2603/1500000 [2:11:57<3754:34:01,  9.03s/it]                                                               0%|          | 2603/1500000 [2:11:57<3754:34:01,  9.03s/it]{'loss': 0.4423, 'grad_norm': 1.1393232345581055, 'learning_rate': 5.2e-07, 'epoch': 2603.0}
  0%|          | 2604/1500000 [2:11:59<2956:41:45,  7.11s/it]                                                               0%|          | 2604/1500000 [2:11:59<2956:41:45,  7.11s/it]{'loss': 0.4366, 'grad_norm': 1.582718849182129, 'learning_rate': 5.202e-07, 'epoch': 2604.0}
  0%|          | 2605/1500000 [2:12:02<2395:11:21,  5.76s/it]                                                               0%|          | 2605/1500000 [2:12:02<2395:11:21,  5.76s/it]{'loss': 0.4455, 'grad_norm': 1.5582048892974854, 'learning_rate': 5.204e-07, 'epoch': 2605.0}
  0%|          | 2606/1500000 [2:12:05<2028:13:42,  4.88s/it]                                                               0%|          | 2606/1500000 [2:12:05<2028:13:42,  4.88s/it]{'loss': 0.4308, 'grad_norm': 2.2500498294830322, 'learning_rate': 5.205999999999999e-07, 'epoch': 2606.0}
  0%|          | 2607/1500000 [2:12:07<1736:02:08,  4.17s/it]                                                               0%|          | 2607/1500000 [2:12:07<1736:02:08,  4.17s/it]{'loss': 0.4217, 'grad_norm': 1.9350519180297852, 'learning_rate': 5.208000000000001e-07, 'epoch': 2607.0}
  0%|          | 2608/1500000 [2:12:10<1543:30:14,  3.71s/it]                                                               0%|          | 2608/1500000 [2:12:10<1543:30:14,  3.71s/it]{'loss': 0.4248, 'grad_norm': 1.4983994960784912, 'learning_rate': 5.21e-07, 'epoch': 2608.0}
  0%|          | 2609/1500000 [2:12:13<1436:35:23,  3.45s/it]                                                               0%|          | 2609/1500000 [2:12:13<1436:35:23,  3.45s/it]{'loss': 0.4394, 'grad_norm': 2.849510669708252, 'learning_rate': 5.212000000000001e-07, 'epoch': 2609.0}
  0%|          | 2610/1500000 [2:12:15<1330:09:55,  3.20s/it]                                                               0%|          | 2610/1500000 [2:12:15<1330:09:55,  3.20s/it]{'loss': 0.4271, 'grad_norm': 1.9513517618179321, 'learning_rate': 5.214e-07, 'epoch': 2610.0}
  0%|          | 2611/1500000 [2:12:18<1233:50:32,  2.97s/it]                                                               0%|          | 2611/1500000 [2:12:18<1233:50:32,  2.97s/it]{'loss': 0.4145, 'grad_norm': 1.5876387357711792, 'learning_rate': 5.216e-07, 'epoch': 2611.0}
  0%|          | 2612/1500000 [2:12:20<1185:19:48,  2.85s/it]                                                               0%|          | 2612/1500000 [2:12:20<1185:19:48,  2.85s/it]{'loss': 0.4297, 'grad_norm': 1.4507575035095215, 'learning_rate': 5.218e-07, 'epoch': 2612.0}
  0%|          | 2613/1500000 [2:12:23<1146:20:28,  2.76s/it]                                                               0%|          | 2613/1500000 [2:12:23<1146:20:28,  2.76s/it]{'loss': 0.4231, 'grad_norm': 5.255831718444824, 'learning_rate': 5.219999999999999e-07, 'epoch': 2613.0}
  0%|          | 2614/1500000 [2:12:25<1131:09:05,  2.72s/it]                                                               0%|          | 2614/1500000 [2:12:25<1131:09:05,  2.72s/it]{'loss': 0.4264, 'grad_norm': 2.4900519847869873, 'learning_rate': 5.222000000000001e-07, 'epoch': 2614.0}
  0%|          | 2615/1500000 [2:12:28<1113:45:14,  2.68s/it]                                                               0%|          | 2615/1500000 [2:12:28<1113:45:14,  2.68s/it]{'loss': 0.419, 'grad_norm': 2.500324010848999, 'learning_rate': 5.224e-07, 'epoch': 2615.0}
  0%|          | 2616/1500000 [2:12:31<1139:38:45,  2.74s/it]                                                               0%|          | 2616/1500000 [2:12:31<1139:38:45,  2.74s/it]{'loss': 0.4302, 'grad_norm': 1.4354724884033203, 'learning_rate': 5.226000000000001e-07, 'epoch': 2616.0}
  0%|          | 2617/1500000 [2:12:34<1124:11:52,  2.70s/it]                                                               0%|          | 2617/1500000 [2:12:34<1124:11:52,  2.70s/it]{'loss': 0.4281, 'grad_norm': 1.4277805089950562, 'learning_rate': 5.228e-07, 'epoch': 2617.0}
  0%|          | 2618/1500000 [2:12:36<1102:30:43,  2.65s/it]                                                               0%|          | 2618/1500000 [2:12:36<1102:30:43,  2.65s/it]{'loss': 0.4146, 'grad_norm': 1.1664494276046753, 'learning_rate': 5.23e-07, 'epoch': 2618.0}
  0%|          | 2619/1500000 [2:12:39<1129:41:27,  2.72s/it]                                                               0%|          | 2619/1500000 [2:12:39<1129:41:27,  2.72s/it]{'loss': 0.4151, 'grad_norm': 1.949927568435669, 'learning_rate': 5.232e-07, 'epoch': 2619.0}
  0%|          | 2620/1500000 [2:12:41<1110:15:22,  2.67s/it]                                                               0%|          | 2620/1500000 [2:12:41<1110:15:22,  2.67s/it]{'loss': 0.4172, 'grad_norm': 5.536164283752441, 'learning_rate': 5.234e-07, 'epoch': 2620.0}
  0%|          | 2621/1500000 [2:12:44<1100:25:51,  2.65s/it]                                                               0%|          | 2621/1500000 [2:12:44<1100:25:51,  2.65s/it]{'loss': 0.4286, 'grad_norm': 2.3847007751464844, 'learning_rate': 5.236000000000001e-07, 'epoch': 2621.0}
  0%|          | 2622/1500000 [2:12:47<1091:19:08,  2.62s/it]                                                               0%|          | 2622/1500000 [2:12:47<1091:19:08,  2.62s/it]{'loss': 0.4154, 'grad_norm': 1.4682308435440063, 'learning_rate': 5.238e-07, 'epoch': 2622.0}
  0%|          | 2623/1500000 [2:12:49<1086:51:26,  2.61s/it]                                                               0%|          | 2623/1500000 [2:12:49<1086:51:26,  2.61s/it]{'loss': 0.4103, 'grad_norm': 1.9549939632415771, 'learning_rate': 5.24e-07, 'epoch': 2623.0}
  0%|          | 2624/1500000 [2:12:52<1077:47:02,  2.59s/it]                                                               0%|          | 2624/1500000 [2:12:52<1077:47:02,  2.59s/it]{'loss': 0.4186, 'grad_norm': 2.029977560043335, 'learning_rate': 5.242e-07, 'epoch': 2624.0}
  0%|          | 2625/1500000 [2:12:54<1068:38:22,  2.57s/it]                                                               0%|          | 2625/1500000 [2:12:54<1068:38:22,  2.57s/it]{'loss': 0.4211, 'grad_norm': 7.081233978271484, 'learning_rate': 5.244e-07, 'epoch': 2625.0}
  0%|          | 2626/1500000 [2:12:57<1066:18:49,  2.56s/it]                                                               0%|          | 2626/1500000 [2:12:57<1066:18:49,  2.56s/it]{'loss': 0.4152, 'grad_norm': 1.6865826845169067, 'learning_rate': 5.246e-07, 'epoch': 2626.0}
  0%|          | 2627/1500000 [2:12:59<1059:25:20,  2.55s/it]                                                               0%|          | 2627/1500000 [2:12:59<1059:25:20,  2.55s/it]{'loss': 0.4137, 'grad_norm': 2.4384264945983887, 'learning_rate': 5.248e-07, 'epoch': 2627.0}
  0%|          | 2628/1500000 [2:13:02<1091:40:37,  2.62s/it]                                                               0%|          | 2628/1500000 [2:13:02<1091:40:37,  2.62s/it]{'loss': 0.4152, 'grad_norm': 1.4927774667739868, 'learning_rate': 5.250000000000001e-07, 'epoch': 2628.0}
  0%|          | 2629/1500000 [2:13:05<1118:30:47,  2.69s/it]                                                               0%|          | 2629/1500000 [2:13:05<1118:30:47,  2.69s/it]{'loss': 0.4218, 'grad_norm': 1.4835995435714722, 'learning_rate': 5.252000000000001e-07, 'epoch': 2629.0}
  0%|          | 2630/1500000 [2:13:08<1109:53:22,  2.67s/it]                                                               0%|          | 2630/1500000 [2:13:08<1109:53:22,  2.67s/it]{'loss': 0.4176, 'grad_norm': 1.375492811203003, 'learning_rate': 5.254e-07, 'epoch': 2630.0}
  0%|          | 2631/1500000 [2:13:10<1130:14:13,  2.72s/it]                                                               0%|          | 2631/1500000 [2:13:10<1130:14:13,  2.72s/it]{'loss': 0.4142, 'grad_norm': 1.9199527502059937, 'learning_rate': 5.256e-07, 'epoch': 2631.0}
  0%|          | 2632/1500000 [2:13:13<1141:56:53,  2.75s/it]                                                               0%|          | 2632/1500000 [2:13:13<1141:56:53,  2.75s/it]{'loss': 0.4158, 'grad_norm': 1.3812944889068604, 'learning_rate': 5.258e-07, 'epoch': 2632.0}
  0%|          | 2633/1500000 [2:13:16<1148:07:08,  2.76s/it]                                                               0%|          | 2633/1500000 [2:13:16<1148:07:08,  2.76s/it]{'loss': 0.4072, 'grad_norm': 3.135651111602783, 'learning_rate': 5.26e-07, 'epoch': 2633.0}
  0%|          | 2634/1500000 [2:13:19<1159:38:59,  2.79s/it]                                                               0%|          | 2634/1500000 [2:13:19<1159:38:59,  2.79s/it]{'loss': 0.4082, 'grad_norm': 1.5806373357772827, 'learning_rate': 5.262e-07, 'epoch': 2634.0}
  0%|          | 2635/1500000 [2:13:21<1122:54:15,  2.70s/it]                                                               0%|          | 2635/1500000 [2:13:21<1122:54:15,  2.70s/it]{'loss': 0.4026, 'grad_norm': 1.4946192502975464, 'learning_rate': 5.264e-07, 'epoch': 2635.0}
  0%|          | 2636/1500000 [2:13:24<1101:51:59,  2.65s/it]                                                               0%|          | 2636/1500000 [2:13:24<1101:51:59,  2.65s/it]{'loss': 0.4024, 'grad_norm': 3.3703501224517822, 'learning_rate': 5.266000000000001e-07, 'epoch': 2636.0}
  0%|          | 2637/1500000 [2:13:27<1094:43:11,  2.63s/it]                                                               0%|          | 2637/1500000 [2:13:27<1094:43:11,  2.63s/it]{'loss': 0.4113, 'grad_norm': 2.910501480102539, 'learning_rate': 5.268e-07, 'epoch': 2637.0}
  0%|          | 2638/1500000 [2:13:29<1089:21:45,  2.62s/it]                                                               0%|          | 2638/1500000 [2:13:29<1089:21:45,  2.62s/it]{'loss': 0.3962, 'grad_norm': 1.6409802436828613, 'learning_rate': 5.270000000000001e-07, 'epoch': 2638.0}
  0%|          | 2639/1500000 [2:13:32<1077:48:02,  2.59s/it]                                                               0%|          | 2639/1500000 [2:13:32<1077:48:02,  2.59s/it]{'loss': 0.4057, 'grad_norm': 1.4091548919677734, 'learning_rate': 5.272e-07, 'epoch': 2639.0}
  0%|          | 2640/1500000 [2:13:34<1080:46:06,  2.60s/it]                                                               0%|          | 2640/1500000 [2:13:34<1080:46:06,  2.60s/it]{'loss': 0.4093, 'grad_norm': 3.1426448822021484, 'learning_rate': 5.273999999999999e-07, 'epoch': 2640.0}
  0%|          | 2641/1500000 [2:13:37<1128:13:30,  2.71s/it]                                                               0%|          | 2641/1500000 [2:13:37<1128:13:30,  2.71s/it]{'loss': 0.3998, 'grad_norm': 1.3224356174468994, 'learning_rate': 5.276e-07, 'epoch': 2641.0}
  0%|          | 2642/1500000 [2:13:40<1169:45:21,  2.81s/it]                                                               0%|          | 2642/1500000 [2:13:40<1169:45:21,  2.81s/it]{'loss': 0.4063, 'grad_norm': 2.2248733043670654, 'learning_rate': 5.278e-07, 'epoch': 2642.0}
  0%|          | 2643/1500000 [2:13:43<1134:41:32,  2.73s/it]                                                               0%|          | 2643/1500000 [2:13:43<1134:41:32,  2.73s/it]{'loss': 0.4049, 'grad_norm': 1.7778289318084717, 'learning_rate': 5.280000000000001e-07, 'epoch': 2643.0}
  0%|          | 2644/1500000 [2:13:45<1107:30:54,  2.66s/it]                                                               0%|          | 2644/1500000 [2:13:45<1107:30:54,  2.66s/it]{'loss': 0.4032, 'grad_norm': 4.186010837554932, 'learning_rate': 5.282e-07, 'epoch': 2644.0}
  0%|          | 2645/1500000 [2:13:48<1127:58:21,  2.71s/it]                                                               0%|          | 2645/1500000 [2:13:48<1127:58:21,  2.71s/it]{'loss': 0.3962, 'grad_norm': 1.6820131540298462, 'learning_rate': 5.284000000000001e-07, 'epoch': 2645.0}
  0%|          | 2646/1500000 [2:13:51<1144:53:32,  2.75s/it]                                                               0%|          | 2646/1500000 [2:13:51<1144:53:32,  2.75s/it]{'loss': 0.4078, 'grad_norm': 3.813101291656494, 'learning_rate': 5.286e-07, 'epoch': 2646.0}
  0%|          | 2647/1500000 [2:13:54<1135:55:33,  2.73s/it]                                                               0%|          | 2647/1500000 [2:13:54<1135:55:33,  2.73s/it]{'loss': 0.3991, 'grad_norm': 1.2923723459243774, 'learning_rate': 5.288e-07, 'epoch': 2647.0}
  0%|          | 2648/1500000 [2:13:56<1112:53:03,  2.68s/it]                                                               0%|          | 2648/1500000 [2:13:56<1112:53:03,  2.68s/it]{'loss': 0.3963, 'grad_norm': 2.2208096981048584, 'learning_rate': 5.29e-07, 'epoch': 2648.0}
  0%|          | 2649/1500000 [2:13:59<1107:19:28,  2.66s/it]                                                               0%|          | 2649/1500000 [2:13:59<1107:19:28,  2.66s/it]{'loss': 0.3976, 'grad_norm': 7.409852027893066, 'learning_rate': 5.292e-07, 'epoch': 2649.0}
  0%|          | 2650/1500000 [2:14:01<1104:28:54,  2.66s/it]                                                               0%|          | 2650/1500000 [2:14:02<1104:28:54,  2.66s/it]{'loss': 0.3993, 'grad_norm': 2.4852449893951416, 'learning_rate': 5.294000000000001e-07, 'epoch': 2650.0}
  0%|          | 2651/1500000 [2:14:04<1129:33:48,  2.72s/it]                                                               0%|          | 2651/1500000 [2:14:04<1129:33:48,  2.72s/it]{'loss': 0.396, 'grad_norm': 1.94663667678833, 'learning_rate': 5.296e-07, 'epoch': 2651.0}
  0%|          | 2652/1500000 [2:14:07<1121:51:08,  2.70s/it]                                                               0%|          | 2652/1500000 [2:14:07<1121:51:08,  2.70s/it]{'loss': 0.3932, 'grad_norm': 3.1598479747772217, 'learning_rate': 5.298e-07, 'epoch': 2652.0}
  0%|          | 2653/1500000 [2:14:10<1107:56:34,  2.66s/it]                                                               0%|          | 2653/1500000 [2:14:10<1107:56:34,  2.66s/it]{'loss': 0.3847, 'grad_norm': 1.5052634477615356, 'learning_rate': 5.3e-07, 'epoch': 2653.0}
  0%|          | 2654/1500000 [2:14:12<1135:21:39,  2.73s/it]                                                               0%|          | 2654/1500000 [2:14:12<1135:21:39,  2.73s/it]{'loss': 0.4038, 'grad_norm': 1.2780524492263794, 'learning_rate': 5.302e-07, 'epoch': 2654.0}
  0%|          | 2655/1500000 [2:14:15<1118:40:16,  2.69s/it]                                                               0%|          | 2655/1500000 [2:14:15<1118:40:16,  2.69s/it]{'loss': 0.3971, 'grad_norm': 1.815938115119934, 'learning_rate': 5.304e-07, 'epoch': 2655.0}
  0%|          | 2656/1500000 [2:14:18<1103:11:15,  2.65s/it]                                                               0%|          | 2656/1500000 [2:14:18<1103:11:15,  2.65s/it]{'loss': 0.3948, 'grad_norm': 2.0124800205230713, 'learning_rate': 5.306e-07, 'epoch': 2656.0}
  0%|          | 2657/1500000 [2:14:20<1083:41:05,  2.61s/it]                                                               0%|          | 2657/1500000 [2:14:20<1083:41:05,  2.61s/it]{'loss': 0.3902, 'grad_norm': 5.702991008758545, 'learning_rate': 5.308e-07, 'epoch': 2657.0}
  0%|          | 2658/1500000 [2:14:23<1062:48:37,  2.56s/it]                                                               0%|          | 2658/1500000 [2:14:23<1062:48:37,  2.56s/it]{'loss': 0.3874, 'grad_norm': 1.35123610496521, 'learning_rate': 5.31e-07, 'epoch': 2658.0}
  0%|          | 2659/1500000 [2:14:25<1059:21:57,  2.55s/it]                                                               0%|          | 2659/1500000 [2:14:25<1059:21:57,  2.55s/it]{'loss': 0.387, 'grad_norm': 1.436211347579956, 'learning_rate': 5.312e-07, 'epoch': 2659.0}
  0%|          | 2660/1500000 [2:14:28<1068:08:20,  2.57s/it]                                                               0%|          | 2660/1500000 [2:14:28<1068:08:20,  2.57s/it]{'loss': 0.3919, 'grad_norm': 1.5593467950820923, 'learning_rate': 5.314e-07, 'epoch': 2660.0}
  0%|          | 2661/1500000 [2:14:30<1095:50:39,  2.63s/it]                                                               0%|          | 2661/1500000 [2:14:31<1095:50:39,  2.63s/it]{'loss': 0.3899, 'grad_norm': 1.4837751388549805, 'learning_rate': 5.316e-07, 'epoch': 2661.0}
  0%|          | 2662/1500000 [2:14:33<1097:57:14,  2.64s/it]                                                               0%|          | 2662/1500000 [2:14:33<1097:57:14,  2.64s/it]{'loss': 0.3828, 'grad_norm': 1.447007656097412, 'learning_rate': 5.318e-07, 'epoch': 2662.0}
  0%|          | 2663/1500000 [2:14:36<1088:04:56,  2.62s/it]                                                               0%|          | 2663/1500000 [2:14:36<1088:04:56,  2.62s/it]{'loss': 0.3846, 'grad_norm': 2.653402805328369, 'learning_rate': 5.32e-07, 'epoch': 2663.0}
  0%|          | 2664/1500000 [2:14:39<1121:50:47,  2.70s/it]                                                               0%|          | 2664/1500000 [2:14:39<1121:50:47,  2.70s/it]{'loss': 0.3837, 'grad_norm': 9.159192085266113, 'learning_rate': 5.322e-07, 'epoch': 2664.0}
  0%|          | 2665/1500000 [2:14:42<1207:24:30,  2.90s/it]                                                               0%|          | 2665/1500000 [2:14:42<1207:24:30,  2.90s/it]{'loss': 0.381, 'grad_norm': 1.7479904890060425, 'learning_rate': 5.324000000000001e-07, 'epoch': 2665.0}
  0%|          | 2666/1500000 [2:14:44<1158:14:10,  2.78s/it]                                                               0%|          | 2666/1500000 [2:14:45<1158:14:10,  2.78s/it]{'loss': 0.38, 'grad_norm': 2.294048309326172, 'learning_rate': 5.326e-07, 'epoch': 2666.0}
  0%|          | 2667/1500000 [2:14:47<1161:38:43,  2.79s/it]                                                               0%|          | 2667/1500000 [2:14:47<1161:38:43,  2.79s/it]{'loss': 0.3842, 'grad_norm': 5.006045341491699, 'learning_rate': 5.328e-07, 'epoch': 2667.0}
  0%|          | 2668/1500000 [2:14:50<1138:44:07,  2.74s/it]                                                               0%|          | 2668/1500000 [2:14:50<1138:44:07,  2.74s/it]{'loss': 0.3813, 'grad_norm': 1.2563055753707886, 'learning_rate': 5.33e-07, 'epoch': 2668.0}
  0%|          | 2669/1500000 [2:14:53<1139:28:21,  2.74s/it]                                                               0%|          | 2669/1500000 [2:14:53<1139:28:21,  2.74s/it]{'loss': 0.3925, 'grad_norm': 1.2739583253860474, 'learning_rate': 5.331999999999999e-07, 'epoch': 2669.0}
  0%|          | 2670/1500000 [2:14:55<1119:27:42,  2.69s/it]                                                               0%|          | 2670/1500000 [2:14:55<1119:27:42,  2.69s/it]{'loss': 0.3925, 'grad_norm': 3.4488685131073, 'learning_rate': 5.334e-07, 'epoch': 2670.0}
  0%|          | 2671/1500000 [2:14:58<1140:16:42,  2.74s/it]                                                               0%|          | 2671/1500000 [2:14:58<1140:16:42,  2.74s/it]{'loss': 0.3816, 'grad_norm': 1.5683835744857788, 'learning_rate': 5.336e-07, 'epoch': 2671.0}
  0%|          | 2672/1500000 [2:15:01<1141:47:51,  2.75s/it]                                                               0%|          | 2672/1500000 [2:15:01<1141:47:51,  2.75s/it]{'loss': 0.3703, 'grad_norm': 2.157463550567627, 'learning_rate': 5.338000000000001e-07, 'epoch': 2672.0}
  0%|          | 2673/1500000 [2:15:04<1146:14:29,  2.76s/it]                                                               0%|          | 2673/1500000 [2:15:04<1146:14:29,  2.76s/it]{'loss': 0.3762, 'grad_norm': 3.7587270736694336, 'learning_rate': 5.34e-07, 'epoch': 2673.0}
  0%|          | 2674/1500000 [2:15:06<1127:19:33,  2.71s/it]                                                               0%|          | 2674/1500000 [2:15:06<1127:19:33,  2.71s/it]{'loss': 0.3782, 'grad_norm': 1.7391079664230347, 'learning_rate': 5.342e-07, 'epoch': 2674.0}
  0%|          | 2675/1500000 [2:15:09<1102:50:10,  2.65s/it]                                                               0%|          | 2675/1500000 [2:15:09<1102:50:10,  2.65s/it]{'loss': 0.3717, 'grad_norm': 1.6436461210250854, 'learning_rate': 5.344e-07, 'epoch': 2675.0}
  0%|          | 2676/1500000 [2:15:12<1130:32:54,  2.72s/it]                                                               0%|          | 2676/1500000 [2:15:12<1130:32:54,  2.72s/it]{'loss': 0.3828, 'grad_norm': 1.5554008483886719, 'learning_rate': 5.346e-07, 'epoch': 2676.0}
  0%|          | 2677/1500000 [2:15:14<1113:50:12,  2.68s/it]                                                               0%|          | 2677/1500000 [2:15:14<1113:50:12,  2.68s/it]{'loss': 0.381, 'grad_norm': 1.3788447380065918, 'learning_rate': 5.348e-07, 'epoch': 2677.0}
  0%|          | 2678/1500000 [2:15:17<1139:48:06,  2.74s/it]                                                               0%|          | 2678/1500000 [2:15:17<1139:48:06,  2.74s/it]{'loss': 0.3734, 'grad_norm': 2.023085832595825, 'learning_rate': 5.35e-07, 'epoch': 2678.0}
  0%|          | 2679/1500000 [2:15:20<1124:12:23,  2.70s/it]                                                               0%|          | 2679/1500000 [2:15:20<1124:12:23,  2.70s/it]{'loss': 0.3684, 'grad_norm': 3.4782865047454834, 'learning_rate': 5.352000000000001e-07, 'epoch': 2679.0}
  0%|          | 2680/1500000 [2:15:22<1134:13:57,  2.73s/it]                                                               0%|          | 2680/1500000 [2:15:23<1134:13:57,  2.73s/it]{'loss': 0.3691, 'grad_norm': 1.4724448919296265, 'learning_rate': 5.354e-07, 'epoch': 2680.0}
  0%|          | 2681/1500000 [2:15:25<1112:02:51,  2.67s/it]                                                               0%|          | 2681/1500000 [2:15:25<1112:02:51,  2.67s/it]{'loss': 0.3779, 'grad_norm': 2.3669965267181396, 'learning_rate': 5.356e-07, 'epoch': 2681.0}
  0%|          | 2682/1500000 [2:15:28<1089:48:15,  2.62s/it]                                                               0%|          | 2682/1500000 [2:15:28<1089:48:15,  2.62s/it]{'loss': 0.3695, 'grad_norm': 1.948461890220642, 'learning_rate': 5.358e-07, 'epoch': 2682.0}
  0%|          | 2683/1500000 [2:15:30<1082:06:43,  2.60s/it]                                                               0%|          | 2683/1500000 [2:15:30<1082:06:43,  2.60s/it]{'loss': 0.3736, 'grad_norm': 1.3625820875167847, 'learning_rate': 5.36e-07, 'epoch': 2683.0}
  0%|          | 2684/1500000 [2:15:33<1083:42:08,  2.61s/it]                                                               0%|          | 2684/1500000 [2:15:33<1083:42:08,  2.61s/it]{'loss': 0.3649, 'grad_norm': 3.1127631664276123, 'learning_rate': 5.362e-07, 'epoch': 2684.0}
  0%|          | 2685/1500000 [2:15:35<1088:38:32,  2.62s/it]                                                               0%|          | 2685/1500000 [2:15:35<1088:38:32,  2.62s/it]{'loss': 0.3707, 'grad_norm': 2.430972099304199, 'learning_rate': 5.364000000000001e-07, 'epoch': 2685.0}
  0%|          | 2686/1500000 [2:15:38<1079:39:53,  2.60s/it]                                                               0%|          | 2686/1500000 [2:15:38<1079:39:53,  2.60s/it]{'loss': 0.3682, 'grad_norm': 5.230063438415527, 'learning_rate': 5.366e-07, 'epoch': 2686.0}
  0%|          | 2687/1500000 [2:15:40<1067:42:29,  2.57s/it]                                                               0%|          | 2687/1500000 [2:15:40<1067:42:29,  2.57s/it]{'loss': 0.3617, 'grad_norm': 2.3356995582580566, 'learning_rate': 5.368e-07, 'epoch': 2687.0}
  0%|          | 2688/1500000 [2:15:43<1102:10:56,  2.65s/it]                                                               0%|          | 2688/1500000 [2:15:43<1102:10:56,  2.65s/it]{'loss': 0.3664, 'grad_norm': 2.395752429962158, 'learning_rate': 5.37e-07, 'epoch': 2688.0}
  0%|          | 2689/1500000 [2:15:46<1089:01:10,  2.62s/it]                                                               0%|          | 2689/1500000 [2:15:46<1089:01:10,  2.62s/it]{'loss': 0.3724, 'grad_norm': 5.7842326164245605, 'learning_rate': 5.372e-07, 'epoch': 2689.0}
  0%|          | 2690/1500000 [2:15:48<1085:47:02,  2.61s/it]                                                               0%|          | 2690/1500000 [2:15:48<1085:47:02,  2.61s/it]{'loss': 0.3734, 'grad_norm': 1.3832931518554688, 'learning_rate': 5.374e-07, 'epoch': 2690.0}
  0%|          | 2691/1500000 [2:15:51<1108:01:03,  2.66s/it]                                                               0%|          | 2691/1500000 [2:15:51<1108:01:03,  2.66s/it]{'loss': 0.3621, 'grad_norm': 1.7145406007766724, 'learning_rate': 5.375999999999999e-07, 'epoch': 2691.0}
  0%|          | 2692/1500000 [2:15:54<1118:54:31,  2.69s/it]                                                               0%|          | 2692/1500000 [2:15:54<1118:54:31,  2.69s/it]{'loss': 0.358, 'grad_norm': 1.2645546197891235, 'learning_rate': 5.378000000000001e-07, 'epoch': 2692.0}
  0%|          | 2693/1500000 [2:15:57<1134:04:21,  2.73s/it]                                                               0%|          | 2693/1500000 [2:15:57<1134:04:21,  2.73s/it]{'loss': 0.369, 'grad_norm': 1.7207518815994263, 'learning_rate': 5.38e-07, 'epoch': 2693.0}
  0%|          | 2694/1500000 [2:16:00<1143:19:50,  2.75s/it]                                                               0%|          | 2694/1500000 [2:16:00<1143:19:50,  2.75s/it]{'loss': 0.3582, 'grad_norm': 1.8623530864715576, 'learning_rate': 5.382000000000001e-07, 'epoch': 2694.0}
  0%|          | 2695/1500000 [2:16:02<1116:19:33,  2.68s/it]                                                               0%|          | 2695/1500000 [2:16:02<1116:19:33,  2.68s/it]{'loss': 0.3588, 'grad_norm': 20.139265060424805, 'learning_rate': 5.384e-07, 'epoch': 2695.0}
  0%|          | 2696/1500000 [2:16:05<1103:30:47,  2.65s/it]                                                               0%|          | 2696/1500000 [2:16:05<1103:30:47,  2.65s/it]{'loss': 0.354, 'grad_norm': 13.546087265014648, 'learning_rate': 5.386e-07, 'epoch': 2696.0}
  0%|          | 2697/1500000 [2:16:07<1085:24:28,  2.61s/it]                                                               0%|          | 2697/1500000 [2:16:07<1085:24:28,  2.61s/it]{'loss': 0.3547, 'grad_norm': 1.994580626487732, 'learning_rate': 5.388e-07, 'epoch': 2697.0}
  0%|          | 2698/1500000 [2:16:10<1116:19:06,  2.68s/it]                                                               0%|          | 2698/1500000 [2:16:10<1116:19:06,  2.68s/it]{'loss': 0.3632, 'grad_norm': 1.5364183187484741, 'learning_rate': 5.389999999999999e-07, 'epoch': 2698.0}
  0%|          | 2699/1500000 [2:16:13<1125:35:01,  2.71s/it]                                                               0%|          | 2699/1500000 [2:16:13<1125:35:01,  2.71s/it]{'loss': 0.3619, 'grad_norm': 1.8502557277679443, 'learning_rate': 5.392000000000001e-07, 'epoch': 2699.0}
  0%|          | 2700/1500000 [2:16:15<1104:54:49,  2.66s/it]                                                               0%|          | 2700/1500000 [2:16:15<1104:54:49,  2.66s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.3664, 'grad_norm': 3.4639551639556885, 'learning_rate': 5.394e-07, 'epoch': 2700.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:03,  1.60it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.15s/it][A
 57%|█████▋    | 4/7 [00:04<00:03,  1.23s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.43s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.50s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.13s/it][A                                                             
                                             [A  0%|          | 2700/1500000 [2:16:45<1104:54:49,  2.66s/it]
100%|██████████| 7/7 [00:08<00:00,  1.13s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2600] due to args.save_total_limit
{'eval_loss': 3.3719754219055176, 'eval_wer': 1.0987158908507224, 'eval_cer': 0.7583953397297827, 'eval_runtime': 17.2911, 'eval_samples_per_second': 56.85, 'eval_steps_per_second': 0.405, 'epoch': 2700.0}
  0%|          | 2701/1500000 [2:17:03<6784:12:32, 16.31s/it]                                                               0%|          | 2701/1500000 [2:17:03<6784:12:32, 16.31s/it]{'loss': 0.3536, 'grad_norm': 1.4396382570266724, 'learning_rate': 5.396000000000001e-07, 'epoch': 2701.0}
  0%|          | 2702/1500000 [2:17:06<5103:51:50, 12.27s/it]                                                               0%|          | 2702/1500000 [2:17:06<5103:51:50, 12.27s/it]{'loss': 0.3597, 'grad_norm': 1.3367868661880493, 'learning_rate': 5.398e-07, 'epoch': 2702.0}
  0%|          | 2703/1500000 [2:17:09<3916:20:22,  9.42s/it]                                                               0%|          | 2703/1500000 [2:17:09<3916:20:22,  9.42s/it]{'loss': 0.3607, 'grad_norm': 1.1723488569259644, 'learning_rate': 5.4e-07, 'epoch': 2703.0}
  0%|          | 2704/1500000 [2:17:12<3103:14:16,  7.46s/it]                                                               0%|          | 2704/1500000 [2:17:12<3103:14:16,  7.46s/it]{'loss': 0.351, 'grad_norm': 1.09309983253479, 'learning_rate': 5.402e-07, 'epoch': 2704.0}
  0%|          | 2705/1500000 [2:17:15<2498:00:33,  6.01s/it]                                                               0%|          | 2705/1500000 [2:17:15<2498:00:33,  6.01s/it]{'loss': 0.3545, 'grad_norm': 2.4626214504241943, 'learning_rate': 5.403999999999999e-07, 'epoch': 2705.0}
  0%|          | 2706/1500000 [2:17:17<2092:55:25,  5.03s/it]                                                               0%|          | 2706/1500000 [2:17:17<2092:55:25,  5.03s/it]{'loss': 0.3512, 'grad_norm': 1.1572617292404175, 'learning_rate': 5.406000000000001e-07, 'epoch': 2706.0}
  0%|          | 2707/1500000 [2:17:20<1817:11:40,  4.37s/it]                                                               0%|          | 2707/1500000 [2:17:20<1817:11:40,  4.37s/it]{'loss': 0.3582, 'grad_norm': 1.7994664907455444, 'learning_rate': 5.408e-07, 'epoch': 2707.0}
  0%|          | 2708/1500000 [2:17:23<1634:02:35,  3.93s/it]                                                               0%|          | 2708/1500000 [2:17:23<1634:02:35,  3.93s/it]{'loss': 0.3392, 'grad_norm': 1.1974815130233765, 'learning_rate': 5.41e-07, 'epoch': 2708.0}
  0%|          | 2709/1500000 [2:17:26<1454:21:02,  3.50s/it]                                                               0%|          | 2709/1500000 [2:17:26<1454:21:02,  3.50s/it]{'loss': 0.3536, 'grad_norm': 1.889553189277649, 'learning_rate': 5.412e-07, 'epoch': 2709.0}
  0%|          | 2710/1500000 [2:17:28<1329:38:35,  3.20s/it]                                                               0%|          | 2710/1500000 [2:17:28<1329:38:35,  3.20s/it]{'loss': 0.3468, 'grad_norm': 2.339682102203369, 'learning_rate': 5.414e-07, 'epoch': 2710.0}
  0%|          | 2711/1500000 [2:17:31<1248:11:12,  3.00s/it]                                                               0%|          | 2711/1500000 [2:17:31<1248:11:12,  3.00s/it]{'loss': 0.3593, 'grad_norm': 1.7048392295837402, 'learning_rate': 5.416e-07, 'epoch': 2711.0}
  0%|          | 2712/1500000 [2:17:33<1200:11:15,  2.89s/it]                                                               0%|          | 2712/1500000 [2:17:33<1200:11:15,  2.89s/it]{'loss': 0.339, 'grad_norm': 1.9958975315093994, 'learning_rate': 5.418e-07, 'epoch': 2712.0}
  0%|          | 2713/1500000 [2:17:36<1159:51:40,  2.79s/it]                                                               0%|          | 2713/1500000 [2:17:36<1159:51:40,  2.79s/it]{'loss': 0.3482, 'grad_norm': 9.176252365112305, 'learning_rate': 5.420000000000001e-07, 'epoch': 2713.0}
  0%|          | 2714/1500000 [2:17:38<1132:08:32,  2.72s/it]                                                               0%|          | 2714/1500000 [2:17:38<1132:08:32,  2.72s/it]{'loss': 0.342, 'grad_norm': 2.1745705604553223, 'learning_rate': 5.422e-07, 'epoch': 2714.0}
  0%|          | 2715/1500000 [2:17:41<1140:03:56,  2.74s/it]                                                               0%|          | 2715/1500000 [2:17:41<1140:03:56,  2.74s/it]{'loss': 0.3449, 'grad_norm': 2.292529821395874, 'learning_rate': 5.424e-07, 'epoch': 2715.0}
  0%|          | 2716/1500000 [2:17:44<1120:14:20,  2.69s/it]                                                               0%|          | 2716/1500000 [2:17:44<1120:14:20,  2.69s/it]{'loss': 0.3559, 'grad_norm': 2.827633857727051, 'learning_rate': 5.426e-07, 'epoch': 2716.0}
  0%|          | 2717/1500000 [2:17:46<1091:08:22,  2.62s/it]                                                               0%|          | 2717/1500000 [2:17:46<1091:08:22,  2.62s/it]{'loss': 0.3355, 'grad_norm': 1.9191999435424805, 'learning_rate': 5.428e-07, 'epoch': 2717.0}
  0%|          | 2718/1500000 [2:17:49<1085:05:57,  2.61s/it]                                                               0%|          | 2718/1500000 [2:17:49<1085:05:57,  2.61s/it]{'loss': 0.3526, 'grad_norm': 3.160752773284912, 'learning_rate': 5.43e-07, 'epoch': 2718.0}
  0%|          | 2719/1500000 [2:17:51<1083:51:07,  2.61s/it]                                                               0%|          | 2719/1500000 [2:17:51<1083:51:07,  2.61s/it]{'loss': 0.3524, 'grad_norm': 1.1855086088180542, 'learning_rate': 5.432e-07, 'epoch': 2719.0}
  0%|          | 2720/1500000 [2:17:54<1120:38:50,  2.69s/it]                                                               0%|          | 2720/1500000 [2:17:54<1120:38:50,  2.69s/it]{'loss': 0.3488, 'grad_norm': 4.741828918457031, 'learning_rate': 5.434e-07, 'epoch': 2720.0}
  0%|          | 2721/1500000 [2:17:57<1137:47:45,  2.74s/it]                                                               0%|          | 2721/1500000 [2:17:57<1137:47:45,  2.74s/it]{'loss': 0.3466, 'grad_norm': 1.9733554124832153, 'learning_rate': 5.436000000000001e-07, 'epoch': 2721.0}
  0%|          | 2722/1500000 [2:18:00<1150:56:32,  2.77s/it]                                                               0%|          | 2722/1500000 [2:18:00<1150:56:32,  2.77s/it]{'loss': 0.3538, 'grad_norm': 3.2303073406219482, 'learning_rate': 5.438e-07, 'epoch': 2722.0}
  0%|          | 2723/1500000 [2:18:03<1165:56:07,  2.80s/it]                                                               0%|          | 2723/1500000 [2:18:03<1165:56:07,  2.80s/it]{'loss': 0.3415, 'grad_norm': 2.087057113647461, 'learning_rate': 5.44e-07, 'epoch': 2723.0}
  0%|          | 2724/1500000 [2:18:05<1135:39:39,  2.73s/it]                                                               0%|          | 2724/1500000 [2:18:05<1135:39:39,  2.73s/it]{'loss': 0.348, 'grad_norm': 1.7879265546798706, 'learning_rate': 5.442e-07, 'epoch': 2724.0}
  0%|          | 2725/1500000 [2:18:08<1111:46:13,  2.67s/it]                                                               0%|          | 2725/1500000 [2:18:08<1111:46:13,  2.67s/it]{'loss': 0.3414, 'grad_norm': 1.5381494760513306, 'learning_rate': 5.443999999999999e-07, 'epoch': 2725.0}
  0%|          | 2726/1500000 [2:18:11<1102:10:29,  2.65s/it]                                                               0%|          | 2726/1500000 [2:18:11<1102:10:29,  2.65s/it]{'loss': 0.3395, 'grad_norm': 1.3970110416412354, 'learning_rate': 5.446e-07, 'epoch': 2726.0}
  0%|          | 2727/1500000 [2:18:13<1090:49:22,  2.62s/it]                                                               0%|          | 2727/1500000 [2:18:13<1090:49:22,  2.62s/it]{'loss': 0.3346, 'grad_norm': 1.0952093601226807, 'learning_rate': 5.448e-07, 'epoch': 2727.0}
  0%|          | 2728/1500000 [2:18:16<1089:52:34,  2.62s/it]                                                               0%|          | 2728/1500000 [2:18:16<1089:52:34,  2.62s/it]{'loss': 0.3329, 'grad_norm': 1.783608078956604, 'learning_rate': 5.450000000000001e-07, 'epoch': 2728.0}
  0%|          | 2729/1500000 [2:18:18<1090:02:02,  2.62s/it]                                                               0%|          | 2729/1500000 [2:18:18<1090:02:02,  2.62s/it]{'loss': 0.3509, 'grad_norm': 1.3428369760513306, 'learning_rate': 5.452e-07, 'epoch': 2729.0}
  0%|          | 2730/1500000 [2:18:21<1081:51:11,  2.60s/it]                                                               0%|          | 2730/1500000 [2:18:21<1081:51:11,  2.60s/it]{'loss': 0.3435, 'grad_norm': 1.213551640510559, 'learning_rate': 5.454000000000001e-07, 'epoch': 2730.0}
  0%|          | 2731/1500000 [2:18:23<1076:34:38,  2.59s/it]                                                               0%|          | 2731/1500000 [2:18:23<1076:34:38,  2.59s/it]{'loss': 0.3336, 'grad_norm': 4.042657375335693, 'learning_rate': 5.456e-07, 'epoch': 2731.0}
  0%|          | 2732/1500000 [2:18:26<1103:57:07,  2.65s/it]                                                               0%|          | 2732/1500000 [2:18:26<1103:57:07,  2.65s/it]{'loss': 0.3335, 'grad_norm': 1.1351484060287476, 'learning_rate': 5.458e-07, 'epoch': 2732.0}
  0%|          | 2733/1500000 [2:18:29<1090:46:27,  2.62s/it]                                                               0%|          | 2733/1500000 [2:18:29<1090:46:27,  2.62s/it]{'loss': 0.3419, 'grad_norm': 2.572108745574951, 'learning_rate': 5.46e-07, 'epoch': 2733.0}
  0%|          | 2734/1500000 [2:18:31<1078:48:32,  2.59s/it]                                                               0%|          | 2734/1500000 [2:18:31<1078:48:32,  2.59s/it]{'loss': 0.3392, 'grad_norm': 1.3511391878128052, 'learning_rate': 5.462e-07, 'epoch': 2734.0}
  0%|          | 2735/1500000 [2:18:34<1080:21:11,  2.60s/it]                                                               0%|          | 2735/1500000 [2:18:34<1080:21:11,  2.60s/it]{'loss': 0.3303, 'grad_norm': 1.3348013162612915, 'learning_rate': 5.464000000000001e-07, 'epoch': 2735.0}
  0%|          | 2736/1500000 [2:18:37<1081:08:04,  2.60s/it]                                                               0%|          | 2736/1500000 [2:18:37<1081:08:04,  2.60s/it]{'loss': 0.3348, 'grad_norm': 1.304893136024475, 'learning_rate': 5.466e-07, 'epoch': 2736.0}
  0%|          | 2737/1500000 [2:18:39<1065:34:15,  2.56s/it]                                                               0%|          | 2737/1500000 [2:18:39<1065:34:15,  2.56s/it]{'loss': 0.3265, 'grad_norm': 1.2391470670700073, 'learning_rate': 5.468e-07, 'epoch': 2737.0}
  0%|          | 2738/1500000 [2:18:42<1066:20:38,  2.56s/it]                                                               0%|          | 2738/1500000 [2:18:42<1066:20:38,  2.56s/it]{'loss': 0.3319, 'grad_norm': 1.3669307231903076, 'learning_rate': 5.47e-07, 'epoch': 2738.0}
  0%|          | 2739/1500000 [2:18:44<1063:59:42,  2.56s/it]                                                               0%|          | 2739/1500000 [2:18:44<1063:59:42,  2.56s/it]{'loss': 0.3349, 'grad_norm': 1.0928823947906494, 'learning_rate': 5.472e-07, 'epoch': 2739.0}
  0%|          | 2740/1500000 [2:18:47<1105:12:14,  2.66s/it]                                                               0%|          | 2740/1500000 [2:18:47<1105:12:14,  2.66s/it]{'loss': 0.3314, 'grad_norm': 1.823762059211731, 'learning_rate': 5.474e-07, 'epoch': 2740.0}
  0%|          | 2741/1500000 [2:18:49<1087:14:28,  2.61s/it]                                                               0%|          | 2741/1500000 [2:18:50<1087:14:28,  2.61s/it]{'loss': 0.32, 'grad_norm': 1.3844205141067505, 'learning_rate': 5.476000000000001e-07, 'epoch': 2741.0}
  0%|          | 2742/1500000 [2:18:52<1107:27:57,  2.66s/it]                                                               0%|          | 2742/1500000 [2:18:52<1107:27:57,  2.66s/it]{'loss': 0.325, 'grad_norm': 4.867648601531982, 'learning_rate': 5.478e-07, 'epoch': 2742.0}
  0%|          | 2743/1500000 [2:18:55<1093:22:12,  2.63s/it]                                                               0%|          | 2743/1500000 [2:18:55<1093:22:12,  2.63s/it]{'loss': 0.3285, 'grad_norm': 2.6416008472442627, 'learning_rate': 5.48e-07, 'epoch': 2743.0}
  0%|          | 2744/1500000 [2:18:58<1112:29:28,  2.67s/it]                                                               0%|          | 2744/1500000 [2:18:58<1112:29:28,  2.67s/it]{'loss': 0.3208, 'grad_norm': 4.181615829467773, 'learning_rate': 5.482e-07, 'epoch': 2744.0}
  0%|          | 2745/1500000 [2:19:00<1111:48:48,  2.67s/it]                                                               0%|          | 2745/1500000 [2:19:00<1111:48:48,  2.67s/it]{'loss': 0.3274, 'grad_norm': 4.360020160675049, 'learning_rate': 5.484e-07, 'epoch': 2745.0}
  0%|          | 2746/1500000 [2:19:03<1115:26:35,  2.68s/it]                                                               0%|          | 2746/1500000 [2:19:03<1115:26:35,  2.68s/it]{'loss': 0.3226, 'grad_norm': 1.156110405921936, 'learning_rate': 5.486e-07, 'epoch': 2746.0}
  0%|          | 2747/1500000 [2:19:06<1107:12:53,  2.66s/it]                                                               0%|          | 2747/1500000 [2:19:06<1107:12:53,  2.66s/it]{'loss': 0.3203, 'grad_norm': 1.5364089012145996, 'learning_rate': 5.488e-07, 'epoch': 2747.0}
  0%|          | 2748/1500000 [2:19:08<1090:44:19,  2.62s/it]                                                               0%|          | 2748/1500000 [2:19:08<1090:44:19,  2.62s/it]{'loss': 0.3189, 'grad_norm': 1.9372913837432861, 'learning_rate': 5.490000000000001e-07, 'epoch': 2748.0}
  0%|          | 2749/1500000 [2:19:11<1091:05:43,  2.62s/it]                                                               0%|          | 2749/1500000 [2:19:11<1091:05:43,  2.62s/it]{'loss': 0.3242, 'grad_norm': 1.1327898502349854, 'learning_rate': 5.492e-07, 'epoch': 2749.0}
  0%|          | 2750/1500000 [2:19:13<1081:30:00,  2.60s/it]                                                               0%|          | 2750/1500000 [2:19:13<1081:30:00,  2.60s/it]{'loss': 0.3154, 'grad_norm': 1.4268712997436523, 'learning_rate': 5.494000000000001e-07, 'epoch': 2750.0}
  0%|          | 2751/1500000 [2:19:16<1076:41:38,  2.59s/it]                                                               0%|          | 2751/1500000 [2:19:16<1076:41:38,  2.59s/it]{'loss': 0.3165, 'grad_norm': 1.1346913576126099, 'learning_rate': 5.496e-07, 'epoch': 2751.0}
  0%|          | 2752/1500000 [2:19:18<1070:25:04,  2.57s/it]                                                               0%|          | 2752/1500000 [2:19:18<1070:25:04,  2.57s/it]{'loss': 0.3179, 'grad_norm': 2.607579469680786, 'learning_rate': 5.498e-07, 'epoch': 2752.0}
  0%|          | 2753/1500000 [2:19:21<1100:07:14,  2.65s/it]                                                               0%|          | 2753/1500000 [2:19:21<1100:07:14,  2.65s/it]{'loss': 0.3216, 'grad_norm': 7.878350257873535, 'learning_rate': 5.5e-07, 'epoch': 2753.0}
  0%|          | 2754/1500000 [2:19:24<1120:24:10,  2.69s/it]                                                               0%|          | 2754/1500000 [2:19:24<1120:24:10,  2.69s/it]{'loss': 0.3143, 'grad_norm': 2.2355260848999023, 'learning_rate': 5.501999999999999e-07, 'epoch': 2754.0}
  0%|          | 2755/1500000 [2:19:27<1136:13:45,  2.73s/it]                                                               0%|          | 2755/1500000 [2:19:27<1136:13:45,  2.73s/it]{'loss': 0.32, 'grad_norm': 1.3880456686019897, 'learning_rate': 5.504000000000001e-07, 'epoch': 2755.0}
  0%|          | 2756/1500000 [2:19:30<1149:45:51,  2.76s/it]                                                               0%|          | 2756/1500000 [2:19:30<1149:45:51,  2.76s/it]{'loss': 0.3149, 'grad_norm': 2.40716552734375, 'learning_rate': 5.506e-07, 'epoch': 2756.0}
  0%|          | 2757/1500000 [2:19:32<1153:15:22,  2.77s/it]                                                               0%|          | 2757/1500000 [2:19:32<1153:15:22,  2.77s/it]{'loss': 0.3172, 'grad_norm': 3.243574857711792, 'learning_rate': 5.508000000000001e-07, 'epoch': 2757.0}
  0%|          | 2758/1500000 [2:19:35<1130:38:56,  2.72s/it]                                                               0%|          | 2758/1500000 [2:19:35<1130:38:56,  2.72s/it]{'loss': 0.3139, 'grad_norm': 4.976564407348633, 'learning_rate': 5.51e-07, 'epoch': 2758.0}
  0%|          | 2759/1500000 [2:19:38<1115:08:07,  2.68s/it]                                                               0%|          | 2759/1500000 [2:19:38<1115:08:07,  2.68s/it]{'loss': 0.3125, 'grad_norm': 1.3253511190414429, 'learning_rate': 5.512e-07, 'epoch': 2759.0}
  0%|          | 2760/1500000 [2:19:40<1123:40:34,  2.70s/it]                                                               0%|          | 2760/1500000 [2:19:40<1123:40:34,  2.70s/it]{'loss': 0.3142, 'grad_norm': 1.4774011373519897, 'learning_rate': 5.514e-07, 'epoch': 2760.0}
  0%|          | 2761/1500000 [2:19:43<1096:08:59,  2.64s/it]                                                               0%|          | 2761/1500000 [2:19:43<1096:08:59,  2.64s/it]{'loss': 0.3136, 'grad_norm': 4.005331993103027, 'learning_rate': 5.515999999999999e-07, 'epoch': 2761.0}
  0%|          | 2762/1500000 [2:19:45<1089:31:31,  2.62s/it]                                                               0%|          | 2762/1500000 [2:19:45<1089:31:31,  2.62s/it]{'loss': 0.3189, 'grad_norm': 1.3130064010620117, 'learning_rate': 5.518000000000001e-07, 'epoch': 2762.0}
  0%|          | 2763/1500000 [2:19:48<1085:49:39,  2.61s/it]                                                               0%|          | 2763/1500000 [2:19:48<1085:49:39,  2.61s/it]{'loss': 0.3087, 'grad_norm': 1.1564998626708984, 'learning_rate': 5.52e-07, 'epoch': 2763.0}
  0%|          | 2764/1500000 [2:19:51<1089:09:11,  2.62s/it]                                                               0%|          | 2764/1500000 [2:19:51<1089:09:11,  2.62s/it]{'loss': 0.3061, 'grad_norm': 1.104315996170044, 'learning_rate': 5.522000000000001e-07, 'epoch': 2764.0}
  0%|          | 2765/1500000 [2:19:53<1091:56:18,  2.63s/it]                                                               0%|          | 2765/1500000 [2:19:53<1091:56:18,  2.63s/it]{'loss': 0.316, 'grad_norm': 9.200641632080078, 'learning_rate': 5.524e-07, 'epoch': 2765.0}
  0%|          | 2766/1500000 [2:19:56<1124:41:53,  2.70s/it]                                                               0%|          | 2766/1500000 [2:19:56<1124:41:53,  2.70s/it]{'loss': 0.3085, 'grad_norm': 1.7330007553100586, 'learning_rate': 5.526e-07, 'epoch': 2766.0}
  0%|          | 2767/1500000 [2:19:59<1110:18:00,  2.67s/it]                                                               0%|          | 2767/1500000 [2:19:59<1110:18:00,  2.67s/it]{'loss': 0.308, 'grad_norm': 3.06870698928833, 'learning_rate': 5.528e-07, 'epoch': 2767.0}
  0%|          | 2768/1500000 [2:20:01<1105:23:33,  2.66s/it]                                                               0%|          | 2768/1500000 [2:20:01<1105:23:33,  2.66s/it]{'loss': 0.3031, 'grad_norm': 1.1697629690170288, 'learning_rate': 5.53e-07, 'epoch': 2768.0}
  0%|          | 2769/1500000 [2:20:04<1136:15:02,  2.73s/it]                                                               0%|          | 2769/1500000 [2:20:04<1136:15:02,  2.73s/it]{'loss': 0.3013, 'grad_norm': 1.2826734781265259, 'learning_rate': 5.532000000000001e-07, 'epoch': 2769.0}
  0%|          | 2770/1500000 [2:20:07<1115:43:43,  2.68s/it]                                                               0%|          | 2770/1500000 [2:20:07<1115:43:43,  2.68s/it]{'loss': 0.3203, 'grad_norm': 2.5410332679748535, 'learning_rate': 5.534e-07, 'epoch': 2770.0}
  0%|          | 2771/1500000 [2:20:10<1111:18:08,  2.67s/it]                                                               0%|          | 2771/1500000 [2:20:10<1111:18:08,  2.67s/it]{'loss': 0.3035, 'grad_norm': 1.0951910018920898, 'learning_rate': 5.536e-07, 'epoch': 2771.0}
  0%|          | 2772/1500000 [2:20:12<1097:43:50,  2.64s/it]                                                               0%|          | 2772/1500000 [2:20:12<1097:43:50,  2.64s/it]{'loss': 0.3101, 'grad_norm': 20.033185958862305, 'learning_rate': 5.538e-07, 'epoch': 2772.0}
  0%|          | 2773/1500000 [2:20:15<1092:39:07,  2.63s/it]                                                               0%|          | 2773/1500000 [2:20:15<1092:39:07,  2.63s/it]{'loss': 0.3114, 'grad_norm': 1.1556204557418823, 'learning_rate': 5.54e-07, 'epoch': 2773.0}
  0%|          | 2774/1500000 [2:20:17<1079:46:41,  2.60s/it]                                                               0%|          | 2774/1500000 [2:20:17<1079:46:41,  2.60s/it]{'loss': 0.3071, 'grad_norm': 1.3058626651763916, 'learning_rate': 5.542e-07, 'epoch': 2774.0}
  0%|          | 2775/1500000 [2:20:20<1079:49:45,  2.60s/it]                                                               0%|          | 2775/1500000 [2:20:20<1079:49:45,  2.60s/it]{'loss': 0.2994, 'grad_norm': 1.8608121871948242, 'learning_rate': 5.544e-07, 'epoch': 2775.0}
  0%|          | 2776/1500000 [2:20:23<1089:52:43,  2.62s/it]                                                               0%|          | 2776/1500000 [2:20:23<1089:52:43,  2.62s/it]{'loss': 0.3034, 'grad_norm': 1.3731130361557007, 'learning_rate': 5.546e-07, 'epoch': 2776.0}
  0%|          | 2777/1500000 [2:20:25<1118:23:59,  2.69s/it]                                                               0%|          | 2777/1500000 [2:20:25<1118:23:59,  2.69s/it]{'loss': 0.2989, 'grad_norm': 1.9816051721572876, 'learning_rate': 5.548000000000001e-07, 'epoch': 2777.0}
  0%|          | 2778/1500000 [2:20:28<1099:11:15,  2.64s/it]                                                               0%|          | 2778/1500000 [2:20:28<1099:11:15,  2.64s/it]{'loss': 0.3013, 'grad_norm': 1.1540125608444214, 'learning_rate': 5.55e-07, 'epoch': 2778.0}
  0%|          | 2779/1500000 [2:20:31<1095:16:44,  2.63s/it]                                                               0%|          | 2779/1500000 [2:20:31<1095:16:44,  2.63s/it]{'loss': 0.2972, 'grad_norm': 1.879226803779602, 'learning_rate': 5.552e-07, 'epoch': 2779.0}
  0%|          | 2780/1500000 [2:20:33<1093:04:19,  2.63s/it]                                                               0%|          | 2780/1500000 [2:20:33<1093:04:19,  2.63s/it]{'loss': 0.2998, 'grad_norm': 3.7897450923919678, 'learning_rate': 5.554e-07, 'epoch': 2780.0}
  0%|          | 2781/1500000 [2:20:36<1116:34:34,  2.68s/it]                                                               0%|          | 2781/1500000 [2:20:36<1116:34:34,  2.68s/it]{'loss': 0.2977, 'grad_norm': 10.981231689453125, 'learning_rate': 5.555999999999999e-07, 'epoch': 2781.0}
  0%|          | 2782/1500000 [2:20:38<1096:57:50,  2.64s/it]                                                               0%|          | 2782/1500000 [2:20:38<1096:57:50,  2.64s/it]{'loss': 0.3028, 'grad_norm': 1.7883421182632446, 'learning_rate': 5.558e-07, 'epoch': 2782.0}
  0%|          | 2783/1500000 [2:20:41<1081:41:19,  2.60s/it]                                                               0%|          | 2783/1500000 [2:20:41<1081:41:19,  2.60s/it]{'loss': 0.3016, 'grad_norm': 1.4920212030410767, 'learning_rate': 5.56e-07, 'epoch': 2783.0}
  0%|          | 2784/1500000 [2:20:44<1072:29:57,  2.58s/it]                                                               0%|          | 2784/1500000 [2:20:44<1072:29:57,  2.58s/it]{'loss': 0.2834, 'grad_norm': 1.6774113178253174, 'learning_rate': 5.562000000000001e-07, 'epoch': 2784.0}
  0%|          | 2785/1500000 [2:20:46<1114:41:10,  2.68s/it]                                                               0%|          | 2785/1500000 [2:20:46<1114:41:10,  2.68s/it]{'loss': 0.2923, 'grad_norm': 1.4034658670425415, 'learning_rate': 5.564e-07, 'epoch': 2785.0}
  0%|          | 2786/1500000 [2:20:49<1134:36:06,  2.73s/it]                                                               0%|          | 2786/1500000 [2:20:49<1134:36:06,  2.73s/it]{'loss': 0.3006, 'grad_norm': 14.821981430053711, 'learning_rate': 5.566000000000001e-07, 'epoch': 2786.0}
  0%|          | 2787/1500000 [2:20:52<1123:34:03,  2.70s/it]                                                               0%|          | 2787/1500000 [2:20:52<1123:34:03,  2.70s/it]{'loss': 0.2943, 'grad_norm': 1.0435457229614258, 'learning_rate': 5.568e-07, 'epoch': 2787.0}
  0%|          | 2788/1500000 [2:20:55<1113:42:27,  2.68s/it]                                                               0%|          | 2788/1500000 [2:20:55<1113:42:27,  2.68s/it]{'loss': 0.2945, 'grad_norm': 1.1052333116531372, 'learning_rate': 5.57e-07, 'epoch': 2788.0}
  0%|          | 2789/1500000 [2:20:57<1121:00:35,  2.70s/it]                                                               0%|          | 2789/1500000 [2:20:57<1121:00:35,  2.70s/it]{'loss': 0.2969, 'grad_norm': 1.3330869674682617, 'learning_rate': 5.572e-07, 'epoch': 2789.0}
  0%|          | 2790/1500000 [2:21:00<1115:46:17,  2.68s/it]                                                               0%|          | 2790/1500000 [2:21:00<1115:46:17,  2.68s/it]{'loss': 0.2922, 'grad_norm': 1.2138311862945557, 'learning_rate': 5.574e-07, 'epoch': 2790.0}
  0%|          | 2791/1500000 [2:21:03<1143:00:02,  2.75s/it]                                                               0%|          | 2791/1500000 [2:21:03<1143:00:02,  2.75s/it]{'loss': 0.2964, 'grad_norm': 3.6621861457824707, 'learning_rate': 5.576000000000001e-07, 'epoch': 2791.0}
  0%|          | 2792/1500000 [2:21:05<1131:12:25,  2.72s/it]                                                               0%|          | 2792/1500000 [2:21:05<1131:12:25,  2.72s/it]{'loss': 0.2877, 'grad_norm': 1.2146131992340088, 'learning_rate': 5.578e-07, 'epoch': 2792.0}
  0%|          | 2793/1500000 [2:21:08<1120:51:55,  2.70s/it]                                                               0%|          | 2793/1500000 [2:21:08<1120:51:55,  2.70s/it]{'loss': 0.2824, 'grad_norm': 1.7704358100891113, 'learning_rate': 5.58e-07, 'epoch': 2793.0}
  0%|          | 2794/1500000 [2:21:11<1099:54:50,  2.64s/it]                                                               0%|          | 2794/1500000 [2:21:11<1099:54:50,  2.64s/it]{'loss': 0.2866, 'grad_norm': 1.0293275117874146, 'learning_rate': 5.582e-07, 'epoch': 2794.0}
  0%|          | 2795/1500000 [2:21:13<1084:52:17,  2.61s/it]                                                               0%|          | 2795/1500000 [2:21:13<1084:52:17,  2.61s/it]{'loss': 0.2905, 'grad_norm': 1.3485002517700195, 'learning_rate': 5.584e-07, 'epoch': 2795.0}
  0%|          | 2796/1500000 [2:21:16<1118:24:55,  2.69s/it]                                                               0%|          | 2796/1500000 [2:21:16<1118:24:55,  2.69s/it]{'loss': 0.2881, 'grad_norm': 1.3199244737625122, 'learning_rate': 5.586e-07, 'epoch': 2796.0}
  0%|          | 2797/1500000 [2:21:19<1134:34:18,  2.73s/it]                                                               0%|          | 2797/1500000 [2:21:19<1134:34:18,  2.73s/it]{'loss': 0.2829, 'grad_norm': 1.2572929859161377, 'learning_rate': 5.588000000000001e-07, 'epoch': 2797.0}
  0%|          | 2798/1500000 [2:21:21<1107:20:20,  2.66s/it]                                                               0%|          | 2798/1500000 [2:21:21<1107:20:20,  2.66s/it]{'loss': 0.2878, 'grad_norm': 5.208845138549805, 'learning_rate': 5.59e-07, 'epoch': 2798.0}
  0%|          | 2799/1500000 [2:21:24<1130:41:13,  2.72s/it]                                                               0%|          | 2799/1500000 [2:21:24<1130:41:13,  2.72s/it]{'loss': 0.3005, 'grad_norm': 1.4782510995864868, 'learning_rate': 5.592e-07, 'epoch': 2799.0}
  0%|          | 2800/1500000 [2:21:27<1152:19:32,  2.77s/it]                                                               0%|          | 2800/1500000 [2:21:27<1152:19:32,  2.77s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.2973, 'grad_norm': 3.588609218597412, 'learning_rate': 5.594e-07, 'epoch': 2800.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.11it/s][A
 43%|████▎     | 3/7 [00:03<00:04,  1.03s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.35s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.33s/it][A
 86%|████████▌ | 6/7 [00:07<00:01,  1.38s/it][A
100%|██████████| 7/7 [00:07<00:00,  1.04s/it][A                                                             
                                             [A  0%|          | 2800/1500000 [2:21:59<1152:19:32,  2.77s/it]
100%|██████████| 7/7 [00:08<00:00,  1.04s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2700] due to args.save_total_limit
{'eval_loss': 3.4065098762512207, 'eval_wer': 1.1081174042650768, 'eval_cer': 0.7594478167221461, 'eval_runtime': 17.431, 'eval_samples_per_second': 56.394, 'eval_steps_per_second': 0.402, 'epoch': 2800.0}
  0%|          | 2801/1500000 [2:22:17<7000:18:53, 16.83s/it]                                                               0%|          | 2801/1500000 [2:22:17<7000:18:53, 16.83s/it]{'loss': 0.2863, 'grad_norm': 13.937275886535645, 'learning_rate': 5.596e-07, 'epoch': 2801.0}
  0%|          | 2802/1500000 [2:22:19<5221:20:24, 12.55s/it]                                                               0%|          | 2802/1500000 [2:22:19<5221:20:24, 12.55s/it]{'loss': 0.2771, 'grad_norm': 0.9516117572784424, 'learning_rate': 5.598e-07, 'epoch': 2802.0}
  0%|          | 2803/1500000 [2:22:22<3978:10:06,  9.57s/it]                                                               0%|          | 2803/1500000 [2:22:22<3978:10:06,  9.57s/it]{'loss': 0.2874, 'grad_norm': 1.0631983280181885, 'learning_rate': 5.6e-07, 'epoch': 2803.0}
  0%|          | 2804/1500000 [2:22:24<3094:36:50,  7.44s/it]                                                               0%|          | 2804/1500000 [2:22:24<3094:36:50,  7.44s/it]{'loss': 0.2889, 'grad_norm': 2.3512356281280518, 'learning_rate': 5.602000000000001e-07, 'epoch': 2804.0}
  0%|          | 2805/1500000 [2:22:27<2529:55:14,  6.08s/it]                                                               0%|          | 2805/1500000 [2:22:27<2529:55:14,  6.08s/it]{'loss': 0.2948, 'grad_norm': 2.863252878189087, 'learning_rate': 5.604e-07, 'epoch': 2805.0}
  0%|          | 2806/1500000 [2:22:30<2086:50:18,  5.02s/it]                                                               0%|          | 2806/1500000 [2:22:30<2086:50:18,  5.02s/it]{'loss': 0.2852, 'grad_norm': 17.91978645324707, 'learning_rate': 5.606000000000001e-07, 'epoch': 2806.0}
  0%|          | 2807/1500000 [2:22:33<1820:24:05,  4.38s/it]                                                               0%|          | 2807/1500000 [2:22:33<1820:24:05,  4.38s/it]{'loss': 0.2882, 'grad_norm': 2.097679376602173, 'learning_rate': 5.608e-07, 'epoch': 2807.0}
  0%|          | 2808/1500000 [2:22:35<1586:42:59,  3.82s/it]                                                               0%|          | 2808/1500000 [2:22:35<1586:42:59,  3.82s/it]{'loss': 0.2822, 'grad_norm': 2.705003499984741, 'learning_rate': 5.61e-07, 'epoch': 2808.0}
  0%|          | 2809/1500000 [2:22:38<1427:10:49,  3.43s/it]                                                               0%|          | 2809/1500000 [2:22:38<1427:10:49,  3.43s/it]{'loss': 0.2787, 'grad_norm': 1.0919965505599976, 'learning_rate': 5.612e-07, 'epoch': 2809.0}
  0%|          | 2810/1500000 [2:22:40<1322:40:59,  3.18s/it]                                                               0%|          | 2810/1500000 [2:22:40<1322:40:59,  3.18s/it]{'loss': 0.2775, 'grad_norm': 1.441637635231018, 'learning_rate': 5.613999999999999e-07, 'epoch': 2810.0}
  0%|          | 2811/1500000 [2:22:43<1246:46:04,  3.00s/it]                                                               0%|          | 2811/1500000 [2:22:43<1246:46:04,  3.00s/it]{'loss': 0.2815, 'grad_norm': 6.100425720214844, 'learning_rate': 5.616e-07, 'epoch': 2811.0}
  0%|          | 2812/1500000 [2:22:45<1191:10:28,  2.86s/it]                                                               0%|          | 2812/1500000 [2:22:46<1191:10:28,  2.86s/it]{'loss': 0.289, 'grad_norm': 2.0636329650878906, 'learning_rate': 5.618e-07, 'epoch': 2812.0}
  0%|          | 2813/1500000 [2:22:48<1151:01:16,  2.77s/it]                                                               0%|          | 2813/1500000 [2:22:48<1151:01:16,  2.77s/it]{'loss': 0.275, 'grad_norm': 3.962862253189087, 'learning_rate': 5.620000000000001e-07, 'epoch': 2813.0}
  0%|          | 2814/1500000 [2:22:51<1124:25:35,  2.70s/it]                                                               0%|          | 2814/1500000 [2:22:51<1124:25:35,  2.70s/it]{'loss': 0.2785, 'grad_norm': 1.9151039123535156, 'learning_rate': 5.622e-07, 'epoch': 2814.0}
  0%|          | 2815/1500000 [2:22:53<1106:30:07,  2.66s/it]                                                               0%|          | 2815/1500000 [2:22:53<1106:30:07,  2.66s/it]{'loss': 0.2792, 'grad_norm': 1.06516432762146, 'learning_rate': 5.624e-07, 'epoch': 2815.0}
  0%|          | 2816/1500000 [2:22:56<1091:48:59,  2.63s/it]                                                               0%|          | 2816/1500000 [2:22:56<1091:48:59,  2.63s/it]{'loss': 0.2744, 'grad_norm': 1.7167625427246094, 'learning_rate': 5.626e-07, 'epoch': 2816.0}
  0%|          | 2817/1500000 [2:22:58<1083:36:30,  2.61s/it]                                                               0%|          | 2817/1500000 [2:22:58<1083:36:30,  2.61s/it]{'loss': 0.2789, 'grad_norm': 1.4195139408111572, 'learning_rate': 5.627999999999999e-07, 'epoch': 2817.0}
  0%|          | 2818/1500000 [2:23:01<1078:23:57,  2.59s/it]                                                               0%|          | 2818/1500000 [2:23:01<1078:23:57,  2.59s/it]{'loss': 0.283, 'grad_norm': 2.118223190307617, 'learning_rate': 5.63e-07, 'epoch': 2818.0}
  0%|          | 2819/1500000 [2:23:04<1106:39:10,  2.66s/it]                                                               0%|          | 2819/1500000 [2:23:04<1106:39:10,  2.66s/it]{'loss': 0.2759, 'grad_norm': 1.2934925556182861, 'learning_rate': 5.632e-07, 'epoch': 2819.0}
  0%|          | 2820/1500000 [2:23:06<1097:19:56,  2.64s/it]                                                               0%|          | 2820/1500000 [2:23:06<1097:19:56,  2.64s/it]{'loss': 0.2768, 'grad_norm': 1.7792400121688843, 'learning_rate': 5.634000000000001e-07, 'epoch': 2820.0}
  0%|          | 2821/1500000 [2:23:09<1088:22:15,  2.62s/it]                                                               0%|          | 2821/1500000 [2:23:09<1088:22:15,  2.62s/it]{'loss': 0.2682, 'grad_norm': 3.5148308277130127, 'learning_rate': 5.636e-07, 'epoch': 2821.0}
  0%|          | 2822/1500000 [2:23:11<1087:39:43,  2.62s/it]                                                               0%|          | 2822/1500000 [2:23:11<1087:39:43,  2.62s/it]{'loss': 0.2767, 'grad_norm': 1.0783746242523193, 'learning_rate': 5.638e-07, 'epoch': 2822.0}
  0%|          | 2823/1500000 [2:23:14<1105:56:20,  2.66s/it]                                                               0%|          | 2823/1500000 [2:23:14<1105:56:20,  2.66s/it]{'loss': 0.2704, 'grad_norm': 1.1904441118240356, 'learning_rate': 5.64e-07, 'epoch': 2823.0}
  0%|          | 2824/1500000 [2:23:17<1082:26:52,  2.60s/it]                                                               0%|          | 2824/1500000 [2:23:17<1082:26:52,  2.60s/it]{'loss': 0.27, 'grad_norm': 1.1502292156219482, 'learning_rate': 5.642e-07, 'epoch': 2824.0}
  0%|          | 2825/1500000 [2:23:19<1082:29:53,  2.60s/it]                                                               0%|          | 2825/1500000 [2:23:19<1082:29:53,  2.60s/it]{'loss': 0.271, 'grad_norm': 0.9625301957130432, 'learning_rate': 5.644e-07, 'epoch': 2825.0}
  0%|          | 2826/1500000 [2:23:22<1085:34:27,  2.61s/it]                                                               0%|          | 2826/1500000 [2:23:22<1085:34:27,  2.61s/it]{'loss': 0.2675, 'grad_norm': 1.0165796279907227, 'learning_rate': 5.646e-07, 'epoch': 2826.0}
  0%|          | 2827/1500000 [2:23:24<1084:56:56,  2.61s/it]                                                               0%|          | 2827/1500000 [2:23:24<1084:56:56,  2.61s/it]{'loss': 0.2726, 'grad_norm': 5.80316686630249, 'learning_rate': 5.648e-07, 'epoch': 2827.0}
  0%|          | 2828/1500000 [2:23:27<1071:41:27,  2.58s/it]                                                               0%|          | 2828/1500000 [2:23:27<1071:41:27,  2.58s/it]{'loss': 0.2683, 'grad_norm': 1.3171586990356445, 'learning_rate': 5.65e-07, 'epoch': 2828.0}
  0%|          | 2829/1500000 [2:23:30<1071:35:53,  2.58s/it]                                                               0%|          | 2829/1500000 [2:23:30<1071:35:53,  2.58s/it]{'loss': 0.2726, 'grad_norm': 2.098296642303467, 'learning_rate': 5.652e-07, 'epoch': 2829.0}
  0%|          | 2830/1500000 [2:23:32<1095:31:00,  2.63s/it]                                                               0%|          | 2830/1500000 [2:23:32<1095:31:00,  2.63s/it]{'loss': 0.2693, 'grad_norm': 1.0929538011550903, 'learning_rate': 5.654e-07, 'epoch': 2830.0}
  0%|          | 2831/1500000 [2:23:35<1090:09:52,  2.62s/it]                                                               0%|          | 2831/1500000 [2:23:35<1090:09:52,  2.62s/it]{'loss': 0.27, 'grad_norm': 1.2516862154006958, 'learning_rate': 5.656e-07, 'epoch': 2831.0}
  0%|          | 2832/1500000 [2:23:38<1089:00:19,  2.62s/it]                                                               0%|          | 2832/1500000 [2:23:38<1089:00:19,  2.62s/it]{'loss': 0.2662, 'grad_norm': 1.1274681091308594, 'learning_rate': 5.657999999999999e-07, 'epoch': 2832.0}
  0%|          | 2833/1500000 [2:23:40<1069:49:52,  2.57s/it]                                                               0%|          | 2833/1500000 [2:23:40<1069:49:52,  2.57s/it]{'loss': 0.2611, 'grad_norm': 1.5530564785003662, 'learning_rate': 5.660000000000001e-07, 'epoch': 2833.0}
  0%|          | 2834/1500000 [2:23:43<1089:20:35,  2.62s/it]                                                               0%|          | 2834/1500000 [2:23:43<1089:20:35,  2.62s/it]{'loss': 0.2548, 'grad_norm': 1.0691252946853638, 'learning_rate': 5.662e-07, 'epoch': 2834.0}
  0%|          | 2835/1500000 [2:23:45<1106:04:46,  2.66s/it]                                                               0%|          | 2835/1500000 [2:23:45<1106:04:46,  2.66s/it]{'loss': 0.2645, 'grad_norm': 3.0509283542633057, 'learning_rate': 5.664000000000001e-07, 'epoch': 2835.0}
  0%|          | 2836/1500000 [2:23:48<1124:27:53,  2.70s/it]                                                               0%|          | 2836/1500000 [2:23:48<1124:27:53,  2.70s/it]{'loss': 0.268, 'grad_norm': 4.237152099609375, 'learning_rate': 5.666e-07, 'epoch': 2836.0}
  0%|          | 2837/1500000 [2:23:51<1099:46:19,  2.64s/it]                                                               0%|          | 2837/1500000 [2:23:51<1099:46:19,  2.64s/it]{'loss': 0.2604, 'grad_norm': 1.2255544662475586, 'learning_rate': 5.668e-07, 'epoch': 2837.0}
  0%|          | 2838/1500000 [2:23:53<1080:02:03,  2.60s/it]                                                               0%|          | 2838/1500000 [2:23:53<1080:02:03,  2.60s/it]{'loss': 0.2667, 'grad_norm': 1.7163914442062378, 'learning_rate': 5.67e-07, 'epoch': 2838.0}
  0%|          | 2839/1500000 [2:23:56<1098:00:04,  2.64s/it]                                                               0%|          | 2839/1500000 [2:23:56<1098:00:04,  2.64s/it]{'loss': 0.2599, 'grad_norm': 1.3872902393341064, 'learning_rate': 5.671999999999999e-07, 'epoch': 2839.0}
  0%|          | 2840/1500000 [2:23:59<1093:45:09,  2.63s/it]                                                               0%|          | 2840/1500000 [2:23:59<1093:45:09,  2.63s/it]{'loss': 0.2616, 'grad_norm': 1.3555554151535034, 'learning_rate': 5.674000000000001e-07, 'epoch': 2840.0}
  0%|          | 2841/1500000 [2:24:01<1113:12:16,  2.68s/it]                                                               0%|          | 2841/1500000 [2:24:01<1113:12:16,  2.68s/it]{'loss': 0.2599, 'grad_norm': 1.1388527154922485, 'learning_rate': 5.676e-07, 'epoch': 2841.0}
  0%|          | 2842/1500000 [2:24:04<1129:03:18,  2.71s/it]                                                               0%|          | 2842/1500000 [2:24:04<1129:03:18,  2.71s/it]{'loss': 0.2631, 'grad_norm': 1.0616779327392578, 'learning_rate': 5.678000000000001e-07, 'epoch': 2842.0}
  0%|          | 2843/1500000 [2:24:07<1110:34:27,  2.67s/it]                                                               0%|          | 2843/1500000 [2:24:07<1110:34:27,  2.67s/it]{'loss': 0.254, 'grad_norm': 5.399785041809082, 'learning_rate': 5.68e-07, 'epoch': 2843.0}
  0%|          | 2844/1500000 [2:24:09<1088:04:11,  2.62s/it]                                                               0%|          | 2844/1500000 [2:24:09<1088:04:11,  2.62s/it]{'loss': 0.255, 'grad_norm': 1.9617588520050049, 'learning_rate': 5.682e-07, 'epoch': 2844.0}
  0%|          | 2845/1500000 [2:24:12<1115:25:27,  2.68s/it]                                                               0%|          | 2845/1500000 [2:24:12<1115:25:27,  2.68s/it]{'loss': 0.2493, 'grad_norm': 2.899055242538452, 'learning_rate': 5.684e-07, 'epoch': 2845.0}
  0%|          | 2846/1500000 [2:24:15<1148:30:45,  2.76s/it]                                                               0%|          | 2846/1500000 [2:24:15<1148:30:45,  2.76s/it]{'loss': 0.2583, 'grad_norm': 10.808472633361816, 'learning_rate': 5.685999999999999e-07, 'epoch': 2846.0}
  0%|          | 2847/1500000 [2:24:18<1154:42:57,  2.78s/it]                                                               0%|          | 2847/1500000 [2:24:18<1154:42:57,  2.78s/it]{'loss': 0.262, 'grad_norm': 1.0479164123535156, 'learning_rate': 5.688000000000001e-07, 'epoch': 2847.0}
  0%|          | 2848/1500000 [2:24:21<1153:59:00,  2.77s/it]                                                               0%|          | 2848/1500000 [2:24:21<1153:59:00,  2.77s/it]{'loss': 0.2576, 'grad_norm': 1.3587403297424316, 'learning_rate': 5.69e-07, 'epoch': 2848.0}
  0%|          | 2849/1500000 [2:24:23<1157:11:58,  2.78s/it]                                                               0%|          | 2849/1500000 [2:24:23<1157:11:58,  2.78s/it]{'loss': 0.2507, 'grad_norm': 1.1444107294082642, 'learning_rate': 5.692e-07, 'epoch': 2849.0}
  0%|          | 2850/1500000 [2:24:26<1164:14:09,  2.80s/it]                                                               0%|          | 2850/1500000 [2:24:26<1164:14:09,  2.80s/it]{'loss': 0.2587, 'grad_norm': 1.2385070323944092, 'learning_rate': 5.694e-07, 'epoch': 2850.0}
  0%|          | 2851/1500000 [2:24:29<1157:58:16,  2.78s/it]                                                               0%|          | 2851/1500000 [2:24:29<1157:58:16,  2.78s/it]{'loss': 0.2511, 'grad_norm': 1.8259072303771973, 'learning_rate': 5.696e-07, 'epoch': 2851.0}
  0%|          | 2852/1500000 [2:24:32<1159:34:51,  2.79s/it]                                                               0%|          | 2852/1500000 [2:24:32<1159:34:51,  2.79s/it]{'loss': 0.2535, 'grad_norm': 1.3811712265014648, 'learning_rate': 5.698e-07, 'epoch': 2852.0}
  0%|          | 2853/1500000 [2:24:34<1132:41:57,  2.72s/it]                                                               0%|          | 2853/1500000 [2:24:34<1132:41:57,  2.72s/it]{'loss': 0.249, 'grad_norm': 1.9947495460510254, 'learning_rate': 5.7e-07, 'epoch': 2853.0}
  0%|          | 2854/1500000 [2:24:37<1147:17:52,  2.76s/it]                                                               0%|          | 2854/1500000 [2:24:37<1147:17:52,  2.76s/it]{'loss': 0.2504, 'grad_norm': 1.1972763538360596, 'learning_rate': 5.702000000000001e-07, 'epoch': 2854.0}
  0%|          | 2855/1500000 [2:24:40<1122:27:19,  2.70s/it]                                                               0%|          | 2855/1500000 [2:24:40<1122:27:19,  2.70s/it]{'loss': 0.2475, 'grad_norm': 33.47626495361328, 'learning_rate': 5.704e-07, 'epoch': 2855.0}
  0%|          | 2856/1500000 [2:24:42<1094:00:30,  2.63s/it]                                                               0%|          | 2856/1500000 [2:24:42<1094:00:30,  2.63s/it]{'loss': 0.2469, 'grad_norm': 1.2735532522201538, 'learning_rate': 5.706e-07, 'epoch': 2856.0}
  0%|          | 2857/1500000 [2:24:45<1077:51:32,  2.59s/it]                                                               0%|          | 2857/1500000 [2:24:45<1077:51:32,  2.59s/it]{'loss': 0.2498, 'grad_norm': 2.8350017070770264, 'learning_rate': 5.708e-07, 'epoch': 2857.0}
  0%|          | 2858/1500000 [2:24:48<1097:58:27,  2.64s/it]                                                               0%|          | 2858/1500000 [2:24:48<1097:58:27,  2.64s/it]{'loss': 0.2426, 'grad_norm': 2.5382378101348877, 'learning_rate': 5.71e-07, 'epoch': 2858.0}
  0%|          | 2859/1500000 [2:24:50<1083:33:15,  2.61s/it]                                                               0%|          | 2859/1500000 [2:24:50<1083:33:15,  2.61s/it]{'loss': 0.2479, 'grad_norm': 4.0553669929504395, 'learning_rate': 5.712e-07, 'epoch': 2859.0}
  0%|          | 2860/1500000 [2:24:53<1109:09:19,  2.67s/it]                                                               0%|          | 2860/1500000 [2:24:53<1109:09:19,  2.67s/it]{'loss': 0.2471, 'grad_norm': 1.3207898139953613, 'learning_rate': 5.714e-07, 'epoch': 2860.0}
  0%|          | 2861/1500000 [2:24:56<1131:41:08,  2.72s/it]                                                               0%|          | 2861/1500000 [2:24:56<1131:41:08,  2.72s/it]{'loss': 0.2467, 'grad_norm': 0.9398587346076965, 'learning_rate': 5.716e-07, 'epoch': 2861.0}
  0%|          | 2862/1500000 [2:24:58<1113:19:10,  2.68s/it]                                                               0%|          | 2862/1500000 [2:24:58<1113:19:10,  2.68s/it]{'loss': 0.2463, 'grad_norm': 1.9602960348129272, 'learning_rate': 5.718000000000001e-07, 'epoch': 2862.0}
  0%|          | 2863/1500000 [2:25:01<1126:55:10,  2.71s/it]                                                               0%|          | 2863/1500000 [2:25:01<1126:55:10,  2.71s/it]{'loss': 0.2403, 'grad_norm': 1.1043152809143066, 'learning_rate': 5.72e-07, 'epoch': 2863.0}
  0%|          | 2864/1500000 [2:25:04<1109:30:18,  2.67s/it]                                                               0%|          | 2864/1500000 [2:25:04<1109:30:18,  2.67s/it]{'loss': 0.2397, 'grad_norm': 1.625625491142273, 'learning_rate': 5.722e-07, 'epoch': 2864.0}
  0%|          | 2865/1500000 [2:25:06<1094:21:08,  2.63s/it]                                                               0%|          | 2865/1500000 [2:25:06<1094:21:08,  2.63s/it]{'loss': 0.2481, 'grad_norm': 1.920351266860962, 'learning_rate': 5.724e-07, 'epoch': 2865.0}
  0%|          | 2866/1500000 [2:25:09<1082:33:32,  2.60s/it]                                                               0%|          | 2866/1500000 [2:25:09<1082:33:32,  2.60s/it]{'loss': 0.2432, 'grad_norm': 2.7800397872924805, 'learning_rate': 5.725999999999999e-07, 'epoch': 2866.0}
  0%|          | 2867/1500000 [2:25:11<1103:46:21,  2.65s/it]                                                               0%|          | 2867/1500000 [2:25:11<1103:46:21,  2.65s/it]{'loss': 0.2402, 'grad_norm': 1.229418396949768, 'learning_rate': 5.728e-07, 'epoch': 2867.0}
  0%|          | 2868/1500000 [2:25:14<1086:38:42,  2.61s/it]                                                               0%|          | 2868/1500000 [2:25:14<1086:38:42,  2.61s/it]{'loss': 0.2419, 'grad_norm': 2.3697617053985596, 'learning_rate': 5.73e-07, 'epoch': 2868.0}
  0%|          | 2869/1500000 [2:25:17<1111:26:12,  2.67s/it]                                                               0%|          | 2869/1500000 [2:25:17<1111:26:12,  2.67s/it]{'loss': 0.2386, 'grad_norm': 0.9836947321891785, 'learning_rate': 5.732000000000001e-07, 'epoch': 2869.0}
  0%|          | 2870/1500000 [2:25:20<1137:11:01,  2.73s/it]                                                               0%|          | 2870/1500000 [2:25:20<1137:11:01,  2.73s/it]{'loss': 0.2423, 'grad_norm': 1.9214783906936646, 'learning_rate': 5.734e-07, 'epoch': 2870.0}
  0%|          | 2871/1500000 [2:25:22<1145:58:42,  2.76s/it]                                                               0%|          | 2871/1500000 [2:25:23<1145:58:42,  2.76s/it]{'loss': 0.2419, 'grad_norm': 1.994589924812317, 'learning_rate': 5.736000000000001e-07, 'epoch': 2871.0}
  0%|          | 2872/1500000 [2:25:25<1146:41:54,  2.76s/it]                                                               0%|          | 2872/1500000 [2:25:25<1146:41:54,  2.76s/it]{'loss': 0.2433, 'grad_norm': 6.7509894371032715, 'learning_rate': 5.738e-07, 'epoch': 2872.0}
  0%|          | 2873/1500000 [2:25:28<1132:55:47,  2.72s/it]                                                               0%|          | 2873/1500000 [2:25:28<1132:55:47,  2.72s/it]{'loss': 0.2421, 'grad_norm': 1.196871280670166, 'learning_rate': 5.739999999999999e-07, 'epoch': 2873.0}
  0%|          | 2874/1500000 [2:25:31<1130:07:09,  2.72s/it]                                                               0%|          | 2874/1500000 [2:25:31<1130:07:09,  2.72s/it]{'loss': 0.2366, 'grad_norm': 3.0461370944976807, 'learning_rate': 5.742e-07, 'epoch': 2874.0}
  0%|          | 2875/1500000 [2:25:33<1107:41:57,  2.66s/it]                                                               0%|          | 2875/1500000 [2:25:33<1107:41:57,  2.66s/it]{'loss': 0.2456, 'grad_norm': 3.1111810207366943, 'learning_rate': 5.744e-07, 'epoch': 2875.0}
  0%|          | 2876/1500000 [2:25:36<1090:43:02,  2.62s/it]                                                               0%|          | 2876/1500000 [2:25:36<1090:43:02,  2.62s/it]{'loss': 0.2443, 'grad_norm': 1.2069603204727173, 'learning_rate': 5.746000000000001e-07, 'epoch': 2876.0}
  0%|          | 2877/1500000 [2:25:38<1109:30:47,  2.67s/it]                                                               0%|          | 2877/1500000 [2:25:38<1109:30:47,  2.67s/it]{'loss': 0.2343, 'grad_norm': 4.43571138381958, 'learning_rate': 5.748e-07, 'epoch': 2877.0}
  0%|          | 2878/1500000 [2:25:41<1119:52:49,  2.69s/it]                                                               0%|          | 2878/1500000 [2:25:41<1119:52:49,  2.69s/it]{'loss': 0.2356, 'grad_norm': 1.8583661317825317, 'learning_rate': 5.75e-07, 'epoch': 2878.0}
  0%|          | 2879/1500000 [2:25:44<1131:59:23,  2.72s/it]                                                               0%|          | 2879/1500000 [2:25:44<1131:59:23,  2.72s/it]{'loss': 0.2422, 'grad_norm': 4.643804550170898, 'learning_rate': 5.752e-07, 'epoch': 2879.0}
  0%|          | 2880/1500000 [2:25:46<1105:20:48,  2.66s/it]                                                               0%|          | 2880/1500000 [2:25:47<1105:20:48,  2.66s/it]{'loss': 0.2356, 'grad_norm': 1.3513872623443604, 'learning_rate': 5.754e-07, 'epoch': 2880.0}
  0%|          | 2881/1500000 [2:25:49<1108:11:47,  2.66s/it]                                                               0%|          | 2881/1500000 [2:25:49<1108:11:47,  2.66s/it]{'loss': 0.2368, 'grad_norm': 2.576144218444824, 'learning_rate': 5.756e-07, 'epoch': 2881.0}
  0%|          | 2882/1500000 [2:25:52<1121:22:10,  2.70s/it]                                                               0%|          | 2882/1500000 [2:25:52<1121:22:10,  2.70s/it]{'loss': 0.2371, 'grad_norm': 4.812121868133545, 'learning_rate': 5.758e-07, 'epoch': 2882.0}
  0%|          | 2883/1500000 [2:25:55<1126:09:37,  2.71s/it]                                                               0%|          | 2883/1500000 [2:25:55<1126:09:37,  2.71s/it]{'loss': 0.2378, 'grad_norm': 1.605706810951233, 'learning_rate': 5.76e-07, 'epoch': 2883.0}
  0%|          | 2884/1500000 [2:25:58<1140:45:49,  2.74s/it]                                                               0%|          | 2884/1500000 [2:25:58<1140:45:49,  2.74s/it]{'loss': 0.2376, 'grad_norm': 2.910705804824829, 'learning_rate': 5.762e-07, 'epoch': 2884.0}
  0%|          | 2885/1500000 [2:26:00<1106:32:03,  2.66s/it]                                                               0%|          | 2885/1500000 [2:26:00<1106:32:03,  2.66s/it]{'loss': 0.2381, 'grad_norm': 3.698133945465088, 'learning_rate': 5.764e-07, 'epoch': 2885.0}
  0%|          | 2886/1500000 [2:26:03<1094:35:31,  2.63s/it]                                                               0%|          | 2886/1500000 [2:26:03<1094:35:31,  2.63s/it]{'loss': 0.235, 'grad_norm': 1.0239392518997192, 'learning_rate': 5.766e-07, 'epoch': 2886.0}
  0%|          | 2887/1500000 [2:26:05<1113:10:05,  2.68s/it]                                                               0%|          | 2887/1500000 [2:26:05<1113:10:05,  2.68s/it]{'loss': 0.2347, 'grad_norm': 2.7026708126068115, 'learning_rate': 5.768e-07, 'epoch': 2887.0}
  0%|          | 2888/1500000 [2:26:08<1093:43:05,  2.63s/it]                                                               0%|          | 2888/1500000 [2:26:08<1093:43:05,  2.63s/it]{'loss': 0.2357, 'grad_norm': 2.2716188430786133, 'learning_rate': 5.77e-07, 'epoch': 2888.0}
  0%|          | 2889/1500000 [2:26:10<1084:20:44,  2.61s/it]                                                               0%|          | 2889/1500000 [2:26:10<1084:20:44,  2.61s/it]{'loss': 0.2289, 'grad_norm': 15.914119720458984, 'learning_rate': 5.772000000000001e-07, 'epoch': 2889.0}
  0%|          | 2890/1500000 [2:26:13<1071:04:25,  2.58s/it]                                                               0%|          | 2890/1500000 [2:26:13<1071:04:25,  2.58s/it]{'loss': 0.2322, 'grad_norm': 2.9987003803253174, 'learning_rate': 5.774e-07, 'epoch': 2890.0}
  0%|          | 2891/1500000 [2:26:15<1068:03:27,  2.57s/it]                                                               0%|          | 2891/1500000 [2:26:15<1068:03:27,  2.57s/it]{'loss': 0.2426, 'grad_norm': 1.9928016662597656, 'learning_rate': 5.776000000000001e-07, 'epoch': 2891.0}
  0%|          | 2892/1500000 [2:26:18<1053:04:44,  2.53s/it]                                                               0%|          | 2892/1500000 [2:26:18<1053:04:44,  2.53s/it]{'loss': 0.2353, 'grad_norm': 1.067915916442871, 'learning_rate': 5.778e-07, 'epoch': 2892.0}
  0%|          | 2893/1500000 [2:26:20<1053:28:56,  2.53s/it]                                                               0%|          | 2893/1500000 [2:26:20<1053:28:56,  2.53s/it]{'loss': 0.2279, 'grad_norm': 3.1601428985595703, 'learning_rate': 5.78e-07, 'epoch': 2893.0}
  0%|          | 2894/1500000 [2:26:23<1082:38:44,  2.60s/it]                                                               0%|          | 2894/1500000 [2:26:23<1082:38:44,  2.60s/it]{'loss': 0.2326, 'grad_norm': 1.79470694065094, 'learning_rate': 5.782e-07, 'epoch': 2894.0}
  0%|          | 2895/1500000 [2:26:26<1104:56:45,  2.66s/it]                                                               0%|          | 2895/1500000 [2:26:26<1104:56:45,  2.66s/it]{'loss': 0.2363, 'grad_norm': 11.085539817810059, 'learning_rate': 5.783999999999999e-07, 'epoch': 2895.0}
  0%|          | 2896/1500000 [2:26:29<1117:41:09,  2.69s/it]                                                               0%|          | 2896/1500000 [2:26:29<1117:41:09,  2.69s/it]{'loss': 0.2218, 'grad_norm': 0.9289693832397461, 'learning_rate': 5.786000000000001e-07, 'epoch': 2896.0}
  0%|          | 2897/1500000 [2:26:31<1104:13:44,  2.66s/it]                                                               0%|          | 2897/1500000 [2:26:31<1104:13:44,  2.66s/it]{'loss': 0.2245, 'grad_norm': 1.0657365322113037, 'learning_rate': 5.788e-07, 'epoch': 2897.0}
  0%|          | 2898/1500000 [2:26:34<1100:12:42,  2.65s/it]                                                               0%|          | 2898/1500000 [2:26:34<1100:12:42,  2.65s/it]{'loss': 0.2334, 'grad_norm': 3.2389655113220215, 'learning_rate': 5.790000000000001e-07, 'epoch': 2898.0}
  0%|          | 2899/1500000 [2:26:36<1084:45:35,  2.61s/it]                                                               0%|          | 2899/1500000 [2:26:36<1084:45:35,  2.61s/it]{'loss': 0.2365, 'grad_norm': 0.9815899729728699, 'learning_rate': 5.792e-07, 'epoch': 2899.0}
  0%|          | 2900/1500000 [2:26:39<1074:35:37,  2.58s/it]                                                               0%|          | 2900/1500000 [2:26:39<1074:35:37,  2.58s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 983
  Batch size = 160
{'loss': 0.2244, 'grad_norm': 6.427790641784668, 'learning_rate': 5.794e-07, 'epoch': 2900.0}

  0%|          | 0/7 [00:00<?, ?it/s][A
 29%|██▊       | 2/7 [00:01<00:04,  1.21it/s][A
 43%|████▎     | 3/7 [00:02<00:04,  1.02s/it][A
 57%|█████▋    | 4/7 [00:04<00:04,  1.34s/it][A
 71%|███████▏  | 5/7 [00:06<00:02,  1.50s/it][A
 86%|████████▌ | 6/7 [00:08<00:01,  1.50s/it][A
100%|██████████| 7/7 [00:08<00:00,  1.12s/it][A                                                             
                                             [A  0%|          | 2900/1500000 [2:27:08<1074:35:37,  2.58s/it]
100%|██████████| 7/7 [00:08<00:00,  1.12s/it][A
                                             [ASaving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2800] due to args.save_total_limit


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from ./w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2400 (score: 3.2958641052246094).
                                                               0%|          | 2900/1500000 [2:27:23<1074:35:37,  2.58s/it]Deleting older checkpoint [w2v-bert-2.0-yoruba_naijavoices_1m/checkpoint-2900] due to args.save_total_limit
  0%|          | 2900/1500000 [2:27:24<1268:18:00,  3.05s/it]
Waiting for the current checkpoint push to be finished, this might take a couple of minutes.
Saving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Saving model checkpoint to ./w2v-bert-2.0-yoruba_naijavoices_1m
Configuration saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/config.json
Model weights saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-yoruba_naijavoices_1m/added_tokens.json
Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 1.1091492776886036}]}
{'eval_loss': 3.45809006690979, 'eval_wer': 1.1091492776886036, 'eval_cer': 0.7666682984139417, 'eval_runtime': 15.0459, 'eval_samples_per_second': 65.333, 'eval_steps_per_second': 0.465, 'epoch': 2900.0}
{'train_runtime': 8843.921, 'train_samples_per_second': 2713.728, 'train_steps_per_second': 169.608, 'train_loss': 1.5034610351046611, 'epoch': 2900.0}
Traceback (most recent call last):
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/utils/_http.py", line 409, in hf_raise_for_status
    response.raise_for_status()
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/requests/models.py", line 1026, in raise_for_status
    raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/api/models/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_1m/preupload/main

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "/mnt/volume/workdir/SynVoices-ASR/run_speech_recognition_ctc.py", line 835, in <module>
    main()
  File "/mnt/volume/workdir/SynVoices-ASR/run_speech_recognition_ctc.py", line 784, in main
    trainer.save_model()
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/transformers/trainer.py", line 3832, in save_model
    self.push_to_hub(commit_message="Model save")
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/transformers/trainer.py", line 4760, in push_to_hub
    return upload_folder(
           ^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/hf_api.py", line 1662, in _inner
    return fn(self, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/hf_api.py", line 4973, in upload_folder
    commit_info = self.create_commit(
                  ^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/hf_api.py", line 1662, in _inner
    return fn(self, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/hf_api.py", line 4230, in create_commit
    self.preupload_lfs_files(
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/hf_api.py", line 4456, in preupload_lfs_files
    _fetch_upload_modes(
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/_commit_api.py", line 699, in _fetch_upload_modes
    hf_raise_for_status(resp)
  File "/mnt/volume/workdir/.venv/lib/python3.12/site-packages/huggingface_hub/utils/_http.py", line 482, in hf_raise_for_status
    raise _format(HfHubHTTPError, str(e), response) from e
huggingface_hub.errors.HfHubHTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/api/models/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_1m/preupload/main (Request ID: Root=1-68781c60-7bc40529761560893fa463c1;e8d92d0f-e73a-4129-afb0-2f06fbcc00d3)

Invalid credentials in Authorization header