Haaaaaaaaaax commited on
Commit
71d0896
·
verified ·
1 Parent(s): 4033d17

chest_xray

Browse files
README.md ADDED
@@ -0,0 +1,93 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: transformers
3
+ license: apache-2.0
4
+ base_model: facebook/dinov2-base
5
+ tags:
6
+ - generated_from_trainer
7
+ datasets:
8
+ - imagefolder
9
+ metrics:
10
+ - accuracy
11
+ - f1
12
+ model-index:
13
+ - name: dinov2-Base-finetuned-chest_xray
14
+ results:
15
+ - task:
16
+ name: Image Classification
17
+ type: image-classification
18
+ dataset:
19
+ name: imagefolder
20
+ type: imagefolder
21
+ config: default
22
+ split: train
23
+ args: default
24
+ metrics:
25
+ - name: Accuracy
26
+ type: accuracy
27
+ value: 0.978
28
+ - name: F1
29
+ type: f1
30
+ value: 0.9779992079714871
31
+ ---
32
+
33
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
34
+ should probably proofread and complete it, then remove this comment. -->
35
+
36
+ # dinov2-Base-finetuned-chest_xray
37
+
38
+ This model is a fine-tuned version of [facebook/dinov2-base](https://huggingface.co/facebook/dinov2-base) on the imagefolder dataset.
39
+ It achieves the following results on the evaluation set:
40
+ - Loss: 0.1155
41
+ - Accuracy: 0.978
42
+ - F1: 0.9780
43
+
44
+ ## Model description
45
+
46
+ More information needed
47
+
48
+ ## Intended uses & limitations
49
+
50
+ More information needed
51
+
52
+ ## Training and evaluation data
53
+
54
+ More information needed
55
+
56
+ ## Training procedure
57
+
58
+ ### Training hyperparameters
59
+
60
+ The following hyperparameters were used during training:
61
+ - learning_rate: 2e-05
62
+ - train_batch_size: 4
63
+ - eval_batch_size: 4
64
+ - seed: 42
65
+ - gradient_accumulation_steps: 4
66
+ - total_train_batch_size: 16
67
+ - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
68
+ - lr_scheduler_type: linear
69
+ - lr_scheduler_warmup_ratio: 0.1
70
+ - num_epochs: 10
71
+
72
+ ### Training results
73
+
74
+ | Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 |
75
+ |:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|
76
+ | 0.6168 | 1.0 | 500 | 0.3097 | 0.881 | 0.8804 |
77
+ | 0.4064 | 2.0 | 1000 | 0.2299 | 0.931 | 0.9309 |
78
+ | 0.2011 | 3.0 | 1500 | 0.1904 | 0.943 | 0.9430 |
79
+ | 0.148 | 4.0 | 2000 | 0.2213 | 0.94 | 0.9399 |
80
+ | 0.2495 | 5.0 | 2500 | 0.2518 | 0.933 | 0.9328 |
81
+ | 0.1926 | 6.0 | 3000 | 0.1155 | 0.966 | 0.9660 |
82
+ | 0.1565 | 7.0 | 3500 | 0.1711 | 0.959 | 0.9590 |
83
+ | 0.1881 | 8.0 | 4000 | 0.1235 | 0.967 | 0.9670 |
84
+ | 0.139 | 9.0 | 4500 | 0.1285 | 0.97 | 0.9700 |
85
+ | 0.1317 | 10.0 | 5000 | 0.1155 | 0.978 | 0.9780 |
86
+
87
+
88
+ ### Framework versions
89
+
90
+ - Transformers 4.51.1
91
+ - Pytorch 2.5.1+cu124
92
+ - Datasets 3.5.0
93
+ - Tokenizers 0.21.0
all_results.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "eval_accuracy": 0.978,
4
+ "eval_f1": 0.9779992079714871,
5
+ "eval_loss": 0.1154957041144371,
6
+ "eval_runtime": 30.9386,
7
+ "eval_samples_per_second": 32.322,
8
+ "eval_steps_per_second": 8.081,
9
+ "total_flos": 8.16900654239318e+18,
10
+ "train_loss": 0.19977144212499262,
11
+ "train_runtime": 4572.2875,
12
+ "train_samples_per_second": 17.492,
13
+ "train_steps_per_second": 1.094
14
+ }
config.json ADDED
@@ -0,0 +1,57 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "apply_layernorm": true,
3
+ "architectures": [
4
+ "Dinov2ForImageClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "drop_path_rate": 0.0,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.0,
10
+ "hidden_size": 768,
11
+ "id2label": {
12
+ "0": "NORMAL",
13
+ "1": "PNEUMONIA"
14
+ },
15
+ "image_size": 518,
16
+ "initializer_range": 0.02,
17
+ "label2id": {
18
+ "NORMAL": 0,
19
+ "PNEUMONIA": 1
20
+ },
21
+ "layer_norm_eps": 1e-06,
22
+ "layerscale_value": 1.0,
23
+ "mlp_ratio": 4,
24
+ "model_type": "dinov2",
25
+ "num_attention_heads": 12,
26
+ "num_channels": 3,
27
+ "num_hidden_layers": 12,
28
+ "out_features": [
29
+ "stage12"
30
+ ],
31
+ "out_indices": [
32
+ 12
33
+ ],
34
+ "patch_size": 14,
35
+ "problem_type": "single_label_classification",
36
+ "qkv_bias": true,
37
+ "reshape_hidden_states": true,
38
+ "stage_names": [
39
+ "stem",
40
+ "stage1",
41
+ "stage2",
42
+ "stage3",
43
+ "stage4",
44
+ "stage5",
45
+ "stage6",
46
+ "stage7",
47
+ "stage8",
48
+ "stage9",
49
+ "stage10",
50
+ "stage11",
51
+ "stage12"
52
+ ],
53
+ "torch_dtype": "float32",
54
+ "transformers_version": "4.51.1",
55
+ "use_mask_token": true,
56
+ "use_swiglu_ffn": false
57
+ }
eval_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "eval_accuracy": 0.978,
4
+ "eval_f1": 0.9779992079714871,
5
+ "eval_loss": 0.1154957041144371,
6
+ "eval_runtime": 30.9386,
7
+ "eval_samples_per_second": 32.322,
8
+ "eval_steps_per_second": 8.081
9
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7713e57a9a0e4741f598b332792392d497757ad44b463481cb0ee3bb87753240
3
+ size 346359928
preprocessor_config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "crop_size": {
3
+ "height": 224,
4
+ "width": 224
5
+ },
6
+ "do_center_crop": true,
7
+ "do_convert_rgb": true,
8
+ "do_normalize": true,
9
+ "do_rescale": true,
10
+ "do_resize": true,
11
+ "image_mean": [
12
+ 0.485,
13
+ 0.456,
14
+ 0.406
15
+ ],
16
+ "image_processor_type": "BitImageProcessor",
17
+ "image_std": [
18
+ 0.229,
19
+ 0.224,
20
+ 0.225
21
+ ],
22
+ "resample": 3,
23
+ "rescale_factor": 0.00392156862745098,
24
+ "size": {
25
+ "shortest_edge": 256
26
+ }
27
+ }
runs/May12_23-59-15_14395f758a70/events.out.tfevents.1747094399.14395f758a70.31.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6338b1521f628149477afca8e801fb84948efbf47c03e59b38fe9908be90a8d7
3
+ size 9513
runs/May13_00-08-12_14395f758a70/events.out.tfevents.1747094915.14395f758a70.144.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:27a5e52b1421e6fcdeaf416be5ac53506a34cae42d60765c2507a71379e7aafd
3
+ size 5417
runs/May13_00-26-38_14395f758a70/events.out.tfevents.1747096012.14395f758a70.144.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:90df5e9a695791c7680524adebb6aec3fac8ff1521324202a79b923a095d6f7d
3
+ size 114900
runs/May13_00-26-38_14395f758a70/events.out.tfevents.1747101735.14395f758a70.144.2 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c433890fe009848820ae6c09d75f05bb3ef66744fe9963016b20c512092e9533
3
+ size 457
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "total_flos": 8.16900654239318e+18,
4
+ "train_loss": 0.19977144212499262,
5
+ "train_runtime": 4572.2875,
6
+ "train_samples_per_second": 17.492,
7
+ "train_steps_per_second": 1.094
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,3643 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 5000,
3
+ "best_metric": 0.978,
4
+ "best_model_checkpoint": "dinov2-Base-finetuned-chest_xray/checkpoint-5000",
5
+ "epoch": 10.0,
6
+ "eval_steps": 500,
7
+ "global_step": 5000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.02,
14
+ "grad_norm": 35.60506057739258,
15
+ "learning_rate": 3.6e-07,
16
+ "loss": 0.707,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.04,
21
+ "grad_norm": 32.205955505371094,
22
+ "learning_rate": 7.6e-07,
23
+ "loss": 0.6444,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.06,
28
+ "grad_norm": 35.40958786010742,
29
+ "learning_rate": 1.1600000000000001e-06,
30
+ "loss": 0.5389,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.08,
35
+ "grad_norm": 100.46707153320312,
36
+ "learning_rate": 1.56e-06,
37
+ "loss": 0.479,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.1,
42
+ "grad_norm": 136.9029998779297,
43
+ "learning_rate": 1.9600000000000003e-06,
44
+ "loss": 0.3726,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.12,
49
+ "grad_norm": 112.6619644165039,
50
+ "learning_rate": 2.3600000000000003e-06,
51
+ "loss": 0.3811,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.14,
56
+ "grad_norm": 122.85919189453125,
57
+ "learning_rate": 2.7600000000000003e-06,
58
+ "loss": 0.3125,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.16,
63
+ "grad_norm": 151.0856475830078,
64
+ "learning_rate": 3.1600000000000002e-06,
65
+ "loss": 0.1709,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.18,
70
+ "grad_norm": 163.33058166503906,
71
+ "learning_rate": 3.5600000000000002e-06,
72
+ "loss": 0.3132,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.2,
77
+ "grad_norm": 39.17326736450195,
78
+ "learning_rate": 3.96e-06,
79
+ "loss": 0.1978,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.22,
84
+ "grad_norm": 121.86164093017578,
85
+ "learning_rate": 4.360000000000001e-06,
86
+ "loss": 0.5709,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.24,
91
+ "grad_norm": 62.78178405761719,
92
+ "learning_rate": 4.76e-06,
93
+ "loss": 0.3215,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.26,
98
+ "grad_norm": 90.05492401123047,
99
+ "learning_rate": 5.1600000000000006e-06,
100
+ "loss": 0.2409,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.28,
105
+ "grad_norm": 91.57019805908203,
106
+ "learning_rate": 5.560000000000001e-06,
107
+ "loss": 0.3212,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.3,
112
+ "grad_norm": 46.13013458251953,
113
+ "learning_rate": 5.9600000000000005e-06,
114
+ "loss": 0.2854,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.32,
119
+ "grad_norm": 36.591400146484375,
120
+ "learning_rate": 6.360000000000001e-06,
121
+ "loss": 0.2878,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.34,
126
+ "grad_norm": 50.103851318359375,
127
+ "learning_rate": 6.760000000000001e-06,
128
+ "loss": 0.3365,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.36,
133
+ "grad_norm": 36.31228256225586,
134
+ "learning_rate": 7.16e-06,
135
+ "loss": 0.2058,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.38,
140
+ "grad_norm": 26.233198165893555,
141
+ "learning_rate": 7.5600000000000005e-06,
142
+ "loss": 0.2415,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.4,
147
+ "grad_norm": 190.9807586669922,
148
+ "learning_rate": 7.960000000000002e-06,
149
+ "loss": 0.5629,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.42,
154
+ "grad_norm": 31.20990753173828,
155
+ "learning_rate": 8.36e-06,
156
+ "loss": 0.3229,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.44,
161
+ "grad_norm": 53.08832550048828,
162
+ "learning_rate": 8.76e-06,
163
+ "loss": 0.304,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.46,
168
+ "grad_norm": 78.52661895751953,
169
+ "learning_rate": 9.16e-06,
170
+ "loss": 0.3907,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.48,
175
+ "grad_norm": 51.839962005615234,
176
+ "learning_rate": 9.56e-06,
177
+ "loss": 0.3652,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.5,
182
+ "grad_norm": 98.27072143554688,
183
+ "learning_rate": 9.960000000000001e-06,
184
+ "loss": 0.3198,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.52,
189
+ "grad_norm": 26.393404006958008,
190
+ "learning_rate": 1.036e-05,
191
+ "loss": 0.3101,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.54,
196
+ "grad_norm": 119.35620880126953,
197
+ "learning_rate": 1.0760000000000002e-05,
198
+ "loss": 0.364,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.56,
203
+ "grad_norm": 29.826126098632812,
204
+ "learning_rate": 1.1160000000000002e-05,
205
+ "loss": 0.2758,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.58,
210
+ "grad_norm": 50.992774963378906,
211
+ "learning_rate": 1.156e-05,
212
+ "loss": 0.297,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.6,
217
+ "grad_norm": 138.25856018066406,
218
+ "learning_rate": 1.196e-05,
219
+ "loss": 0.2872,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.62,
224
+ "grad_norm": 16.597909927368164,
225
+ "learning_rate": 1.236e-05,
226
+ "loss": 0.2231,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.64,
231
+ "grad_norm": 81.75726318359375,
232
+ "learning_rate": 1.2760000000000001e-05,
233
+ "loss": 0.4209,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.66,
238
+ "grad_norm": 15.312515258789062,
239
+ "learning_rate": 1.3160000000000001e-05,
240
+ "loss": 0.6609,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.68,
245
+ "grad_norm": 59.00835037231445,
246
+ "learning_rate": 1.3560000000000002e-05,
247
+ "loss": 0.4399,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.7,
252
+ "grad_norm": 100.15602111816406,
253
+ "learning_rate": 1.396e-05,
254
+ "loss": 0.8739,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.72,
259
+ "grad_norm": 32.71953201293945,
260
+ "learning_rate": 1.4360000000000001e-05,
261
+ "loss": 0.2637,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.74,
266
+ "grad_norm": 49.36539840698242,
267
+ "learning_rate": 1.4760000000000001e-05,
268
+ "loss": 0.5893,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.76,
273
+ "grad_norm": 68.50594329833984,
274
+ "learning_rate": 1.516e-05,
275
+ "loss": 0.2918,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.78,
280
+ "grad_norm": 48.713478088378906,
281
+ "learning_rate": 1.556e-05,
282
+ "loss": 0.2843,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.8,
287
+ "grad_norm": 13.968476295471191,
288
+ "learning_rate": 1.5960000000000003e-05,
289
+ "loss": 0.2442,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.82,
294
+ "grad_norm": 27.260313034057617,
295
+ "learning_rate": 1.636e-05,
296
+ "loss": 0.6178,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.84,
301
+ "grad_norm": 22.27880859375,
302
+ "learning_rate": 1.6760000000000002e-05,
303
+ "loss": 0.4078,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.86,
308
+ "grad_norm": 116.15648651123047,
309
+ "learning_rate": 1.7160000000000002e-05,
310
+ "loss": 0.1267,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.88,
315
+ "grad_norm": 119.97148132324219,
316
+ "learning_rate": 1.756e-05,
317
+ "loss": 0.6495,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.9,
322
+ "grad_norm": 29.45627784729004,
323
+ "learning_rate": 1.796e-05,
324
+ "loss": 0.322,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.92,
329
+ "grad_norm": 33.898536682128906,
330
+ "learning_rate": 1.8360000000000004e-05,
331
+ "loss": 0.3882,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.94,
336
+ "grad_norm": 34.48135757446289,
337
+ "learning_rate": 1.876e-05,
338
+ "loss": 0.2417,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.96,
343
+ "grad_norm": 31.692834854125977,
344
+ "learning_rate": 1.916e-05,
345
+ "loss": 0.5124,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.98,
350
+ "grad_norm": 34.22683334350586,
351
+ "learning_rate": 1.9560000000000002e-05,
352
+ "loss": 0.6022,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 1.0,
357
+ "grad_norm": 40.94671630859375,
358
+ "learning_rate": 1.9960000000000002e-05,
359
+ "loss": 0.6168,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 1.0,
364
+ "eval_accuracy": 0.881,
365
+ "eval_f1": 0.8804307307089052,
366
+ "eval_loss": 0.30973997712135315,
367
+ "eval_runtime": 34.4472,
368
+ "eval_samples_per_second": 29.03,
369
+ "eval_steps_per_second": 7.257,
370
+ "step": 500
371
+ },
372
+ {
373
+ "epoch": 1.02,
374
+ "grad_norm": 49.332088470458984,
375
+ "learning_rate": 1.9960000000000002e-05,
376
+ "loss": 0.3196,
377
+ "step": 510
378
+ },
379
+ {
380
+ "epoch": 1.04,
381
+ "grad_norm": 32.124916076660156,
382
+ "learning_rate": 1.9915555555555557e-05,
383
+ "loss": 0.2481,
384
+ "step": 520
385
+ },
386
+ {
387
+ "epoch": 1.06,
388
+ "grad_norm": 101.40174865722656,
389
+ "learning_rate": 1.9871111111111112e-05,
390
+ "loss": 0.4605,
391
+ "step": 530
392
+ },
393
+ {
394
+ "epoch": 1.08,
395
+ "grad_norm": 30.166494369506836,
396
+ "learning_rate": 1.9826666666666668e-05,
397
+ "loss": 0.3265,
398
+ "step": 540
399
+ },
400
+ {
401
+ "epoch": 1.1,
402
+ "grad_norm": 34.85820007324219,
403
+ "learning_rate": 1.9782222222222226e-05,
404
+ "loss": 0.1818,
405
+ "step": 550
406
+ },
407
+ {
408
+ "epoch": 1.12,
409
+ "grad_norm": 51.03989028930664,
410
+ "learning_rate": 1.973777777777778e-05,
411
+ "loss": 0.2949,
412
+ "step": 560
413
+ },
414
+ {
415
+ "epoch": 1.1400000000000001,
416
+ "grad_norm": 17.528627395629883,
417
+ "learning_rate": 1.9693333333333337e-05,
418
+ "loss": 0.309,
419
+ "step": 570
420
+ },
421
+ {
422
+ "epoch": 1.16,
423
+ "grad_norm": 23.933225631713867,
424
+ "learning_rate": 1.9648888888888892e-05,
425
+ "loss": 0.1717,
426
+ "step": 580
427
+ },
428
+ {
429
+ "epoch": 1.18,
430
+ "grad_norm": 32.057437896728516,
431
+ "learning_rate": 1.9604444444444447e-05,
432
+ "loss": 0.2709,
433
+ "step": 590
434
+ },
435
+ {
436
+ "epoch": 1.2,
437
+ "grad_norm": 24.478822708129883,
438
+ "learning_rate": 1.9560000000000002e-05,
439
+ "loss": 0.3454,
440
+ "step": 600
441
+ },
442
+ {
443
+ "epoch": 1.22,
444
+ "grad_norm": 27.830547332763672,
445
+ "learning_rate": 1.9515555555555558e-05,
446
+ "loss": 0.2922,
447
+ "step": 610
448
+ },
449
+ {
450
+ "epoch": 1.24,
451
+ "grad_norm": 28.893102645874023,
452
+ "learning_rate": 1.9471111111111113e-05,
453
+ "loss": 0.2301,
454
+ "step": 620
455
+ },
456
+ {
457
+ "epoch": 1.26,
458
+ "grad_norm": 40.44171905517578,
459
+ "learning_rate": 1.9426666666666668e-05,
460
+ "loss": 0.2675,
461
+ "step": 630
462
+ },
463
+ {
464
+ "epoch": 1.28,
465
+ "grad_norm": 86.44293212890625,
466
+ "learning_rate": 1.9382222222222223e-05,
467
+ "loss": 0.3228,
468
+ "step": 640
469
+ },
470
+ {
471
+ "epoch": 1.3,
472
+ "grad_norm": 22.616317749023438,
473
+ "learning_rate": 1.933777777777778e-05,
474
+ "loss": 0.3171,
475
+ "step": 650
476
+ },
477
+ {
478
+ "epoch": 1.32,
479
+ "grad_norm": 16.80646514892578,
480
+ "learning_rate": 1.9293333333333334e-05,
481
+ "loss": 0.2815,
482
+ "step": 660
483
+ },
484
+ {
485
+ "epoch": 1.34,
486
+ "grad_norm": 21.581981658935547,
487
+ "learning_rate": 1.924888888888889e-05,
488
+ "loss": 0.2457,
489
+ "step": 670
490
+ },
491
+ {
492
+ "epoch": 1.3599999999999999,
493
+ "grad_norm": 33.72889709472656,
494
+ "learning_rate": 1.9204444444444444e-05,
495
+ "loss": 0.2681,
496
+ "step": 680
497
+ },
498
+ {
499
+ "epoch": 1.38,
500
+ "grad_norm": 19.172264099121094,
501
+ "learning_rate": 1.916e-05,
502
+ "loss": 0.1952,
503
+ "step": 690
504
+ },
505
+ {
506
+ "epoch": 1.4,
507
+ "grad_norm": 20.554349899291992,
508
+ "learning_rate": 1.9115555555555555e-05,
509
+ "loss": 0.2082,
510
+ "step": 700
511
+ },
512
+ {
513
+ "epoch": 1.42,
514
+ "grad_norm": 30.159101486206055,
515
+ "learning_rate": 1.9071111111111113e-05,
516
+ "loss": 0.3083,
517
+ "step": 710
518
+ },
519
+ {
520
+ "epoch": 1.44,
521
+ "grad_norm": 9.576855659484863,
522
+ "learning_rate": 1.902666666666667e-05,
523
+ "loss": 0.2406,
524
+ "step": 720
525
+ },
526
+ {
527
+ "epoch": 1.46,
528
+ "grad_norm": 4.8232808113098145,
529
+ "learning_rate": 1.8982222222222224e-05,
530
+ "loss": 0.2826,
531
+ "step": 730
532
+ },
533
+ {
534
+ "epoch": 1.48,
535
+ "grad_norm": 32.66990661621094,
536
+ "learning_rate": 1.893777777777778e-05,
537
+ "loss": 0.1991,
538
+ "step": 740
539
+ },
540
+ {
541
+ "epoch": 1.5,
542
+ "grad_norm": 10.173163414001465,
543
+ "learning_rate": 1.8893333333333334e-05,
544
+ "loss": 0.324,
545
+ "step": 750
546
+ },
547
+ {
548
+ "epoch": 1.52,
549
+ "grad_norm": 4.425929546356201,
550
+ "learning_rate": 1.884888888888889e-05,
551
+ "loss": 0.2206,
552
+ "step": 760
553
+ },
554
+ {
555
+ "epoch": 1.54,
556
+ "grad_norm": 52.01613235473633,
557
+ "learning_rate": 1.8804444444444445e-05,
558
+ "loss": 0.3236,
559
+ "step": 770
560
+ },
561
+ {
562
+ "epoch": 1.56,
563
+ "grad_norm": 15.653510093688965,
564
+ "learning_rate": 1.876e-05,
565
+ "loss": 0.2374,
566
+ "step": 780
567
+ },
568
+ {
569
+ "epoch": 1.58,
570
+ "grad_norm": 167.95399475097656,
571
+ "learning_rate": 1.871555555555556e-05,
572
+ "loss": 0.2889,
573
+ "step": 790
574
+ },
575
+ {
576
+ "epoch": 1.6,
577
+ "grad_norm": 17.713655471801758,
578
+ "learning_rate": 1.8671111111111114e-05,
579
+ "loss": 0.5167,
580
+ "step": 800
581
+ },
582
+ {
583
+ "epoch": 1.62,
584
+ "grad_norm": 14.328554153442383,
585
+ "learning_rate": 1.862666666666667e-05,
586
+ "loss": 0.1999,
587
+ "step": 810
588
+ },
589
+ {
590
+ "epoch": 1.6400000000000001,
591
+ "grad_norm": 41.7502555847168,
592
+ "learning_rate": 1.8582222222222224e-05,
593
+ "loss": 0.2526,
594
+ "step": 820
595
+ },
596
+ {
597
+ "epoch": 1.6600000000000001,
598
+ "grad_norm": 11.470744132995605,
599
+ "learning_rate": 1.853777777777778e-05,
600
+ "loss": 0.2,
601
+ "step": 830
602
+ },
603
+ {
604
+ "epoch": 1.6800000000000002,
605
+ "grad_norm": 12.596700668334961,
606
+ "learning_rate": 1.8493333333333335e-05,
607
+ "loss": 0.2967,
608
+ "step": 840
609
+ },
610
+ {
611
+ "epoch": 1.7,
612
+ "grad_norm": 26.462865829467773,
613
+ "learning_rate": 1.844888888888889e-05,
614
+ "loss": 0.2727,
615
+ "step": 850
616
+ },
617
+ {
618
+ "epoch": 1.72,
619
+ "grad_norm": 26.50472640991211,
620
+ "learning_rate": 1.840444444444445e-05,
621
+ "loss": 0.2033,
622
+ "step": 860
623
+ },
624
+ {
625
+ "epoch": 1.74,
626
+ "grad_norm": 2.5799942016601562,
627
+ "learning_rate": 1.8360000000000004e-05,
628
+ "loss": 0.1534,
629
+ "step": 870
630
+ },
631
+ {
632
+ "epoch": 1.76,
633
+ "grad_norm": 26.659576416015625,
634
+ "learning_rate": 1.831555555555556e-05,
635
+ "loss": 0.4231,
636
+ "step": 880
637
+ },
638
+ {
639
+ "epoch": 1.78,
640
+ "grad_norm": 57.549041748046875,
641
+ "learning_rate": 1.8271111111111114e-05,
642
+ "loss": 0.2446,
643
+ "step": 890
644
+ },
645
+ {
646
+ "epoch": 1.8,
647
+ "grad_norm": 4.400341033935547,
648
+ "learning_rate": 1.822666666666667e-05,
649
+ "loss": 0.2572,
650
+ "step": 900
651
+ },
652
+ {
653
+ "epoch": 1.8199999999999998,
654
+ "grad_norm": 13.823641777038574,
655
+ "learning_rate": 1.8182222222222225e-05,
656
+ "loss": 0.1574,
657
+ "step": 910
658
+ },
659
+ {
660
+ "epoch": 1.8399999999999999,
661
+ "grad_norm": 6.683146953582764,
662
+ "learning_rate": 1.813777777777778e-05,
663
+ "loss": 0.1874,
664
+ "step": 920
665
+ },
666
+ {
667
+ "epoch": 1.8599999999999999,
668
+ "grad_norm": 16.71830940246582,
669
+ "learning_rate": 1.8093333333333335e-05,
670
+ "loss": 0.1914,
671
+ "step": 930
672
+ },
673
+ {
674
+ "epoch": 1.88,
675
+ "grad_norm": 26.782732009887695,
676
+ "learning_rate": 1.804888888888889e-05,
677
+ "loss": 0.2934,
678
+ "step": 940
679
+ },
680
+ {
681
+ "epoch": 1.9,
682
+ "grad_norm": 19.348163604736328,
683
+ "learning_rate": 1.8004444444444446e-05,
684
+ "loss": 0.405,
685
+ "step": 950
686
+ },
687
+ {
688
+ "epoch": 1.92,
689
+ "grad_norm": 25.748044967651367,
690
+ "learning_rate": 1.796e-05,
691
+ "loss": 0.2421,
692
+ "step": 960
693
+ },
694
+ {
695
+ "epoch": 1.94,
696
+ "grad_norm": 35.39026641845703,
697
+ "learning_rate": 1.7915555555555556e-05,
698
+ "loss": 0.3259,
699
+ "step": 970
700
+ },
701
+ {
702
+ "epoch": 1.96,
703
+ "grad_norm": 1.4285428524017334,
704
+ "learning_rate": 1.787111111111111e-05,
705
+ "loss": 0.3137,
706
+ "step": 980
707
+ },
708
+ {
709
+ "epoch": 1.98,
710
+ "grad_norm": 40.81747055053711,
711
+ "learning_rate": 1.7826666666666667e-05,
712
+ "loss": 0.2184,
713
+ "step": 990
714
+ },
715
+ {
716
+ "epoch": 2.0,
717
+ "grad_norm": 1.2436115741729736,
718
+ "learning_rate": 1.7782222222222222e-05,
719
+ "loss": 0.4064,
720
+ "step": 1000
721
+ },
722
+ {
723
+ "epoch": 2.0,
724
+ "eval_accuracy": 0.931,
725
+ "eval_f1": 0.9308948911294078,
726
+ "eval_loss": 0.22988209128379822,
727
+ "eval_runtime": 30.4447,
728
+ "eval_samples_per_second": 32.846,
729
+ "eval_steps_per_second": 8.212,
730
+ "step": 1000
731
+ },
732
+ {
733
+ "epoch": 2.02,
734
+ "grad_norm": 51.8025016784668,
735
+ "learning_rate": 1.7737777777777777e-05,
736
+ "loss": 0.4064,
737
+ "step": 1010
738
+ },
739
+ {
740
+ "epoch": 2.04,
741
+ "grad_norm": 22.005352020263672,
742
+ "learning_rate": 1.7693333333333336e-05,
743
+ "loss": 0.2451,
744
+ "step": 1020
745
+ },
746
+ {
747
+ "epoch": 2.06,
748
+ "grad_norm": 7.652478218078613,
749
+ "learning_rate": 1.764888888888889e-05,
750
+ "loss": 0.2006,
751
+ "step": 1030
752
+ },
753
+ {
754
+ "epoch": 2.08,
755
+ "grad_norm": 16.89813232421875,
756
+ "learning_rate": 1.7604444444444446e-05,
757
+ "loss": 0.2337,
758
+ "step": 1040
759
+ },
760
+ {
761
+ "epoch": 2.1,
762
+ "grad_norm": 14.223350524902344,
763
+ "learning_rate": 1.756e-05,
764
+ "loss": 0.2378,
765
+ "step": 1050
766
+ },
767
+ {
768
+ "epoch": 2.12,
769
+ "grad_norm": 11.773897171020508,
770
+ "learning_rate": 1.7515555555555557e-05,
771
+ "loss": 0.2822,
772
+ "step": 1060
773
+ },
774
+ {
775
+ "epoch": 2.14,
776
+ "grad_norm": 28.70100212097168,
777
+ "learning_rate": 1.7471111111111112e-05,
778
+ "loss": 0.2255,
779
+ "step": 1070
780
+ },
781
+ {
782
+ "epoch": 2.16,
783
+ "grad_norm": 128.63665771484375,
784
+ "learning_rate": 1.7426666666666667e-05,
785
+ "loss": 0.2935,
786
+ "step": 1080
787
+ },
788
+ {
789
+ "epoch": 2.18,
790
+ "grad_norm": 23.393587112426758,
791
+ "learning_rate": 1.7382222222222222e-05,
792
+ "loss": 0.2088,
793
+ "step": 1090
794
+ },
795
+ {
796
+ "epoch": 2.2,
797
+ "grad_norm": 39.386390686035156,
798
+ "learning_rate": 1.733777777777778e-05,
799
+ "loss": 0.3838,
800
+ "step": 1100
801
+ },
802
+ {
803
+ "epoch": 2.22,
804
+ "grad_norm": 12.161091804504395,
805
+ "learning_rate": 1.7293333333333336e-05,
806
+ "loss": 0.2217,
807
+ "step": 1110
808
+ },
809
+ {
810
+ "epoch": 2.24,
811
+ "grad_norm": 26.083356857299805,
812
+ "learning_rate": 1.724888888888889e-05,
813
+ "loss": 0.231,
814
+ "step": 1120
815
+ },
816
+ {
817
+ "epoch": 2.26,
818
+ "grad_norm": 18.118240356445312,
819
+ "learning_rate": 1.7204444444444446e-05,
820
+ "loss": 0.1093,
821
+ "step": 1130
822
+ },
823
+ {
824
+ "epoch": 2.2800000000000002,
825
+ "grad_norm": 18.32238006591797,
826
+ "learning_rate": 1.7160000000000002e-05,
827
+ "loss": 0.2271,
828
+ "step": 1140
829
+ },
830
+ {
831
+ "epoch": 2.3,
832
+ "grad_norm": 28.527690887451172,
833
+ "learning_rate": 1.7115555555555557e-05,
834
+ "loss": 0.1867,
835
+ "step": 1150
836
+ },
837
+ {
838
+ "epoch": 2.32,
839
+ "grad_norm": 34.48973083496094,
840
+ "learning_rate": 1.7071111111111112e-05,
841
+ "loss": 0.1341,
842
+ "step": 1160
843
+ },
844
+ {
845
+ "epoch": 2.34,
846
+ "grad_norm": 36.336421966552734,
847
+ "learning_rate": 1.702666666666667e-05,
848
+ "loss": 0.3383,
849
+ "step": 1170
850
+ },
851
+ {
852
+ "epoch": 2.36,
853
+ "grad_norm": 20.664039611816406,
854
+ "learning_rate": 1.6982222222222226e-05,
855
+ "loss": 0.2263,
856
+ "step": 1180
857
+ },
858
+ {
859
+ "epoch": 2.38,
860
+ "grad_norm": 53.47317886352539,
861
+ "learning_rate": 1.693777777777778e-05,
862
+ "loss": 0.2152,
863
+ "step": 1190
864
+ },
865
+ {
866
+ "epoch": 2.4,
867
+ "grad_norm": 6.118716716766357,
868
+ "learning_rate": 1.6893333333333336e-05,
869
+ "loss": 0.2055,
870
+ "step": 1200
871
+ },
872
+ {
873
+ "epoch": 2.42,
874
+ "grad_norm": 47.16877365112305,
875
+ "learning_rate": 1.6848888888888892e-05,
876
+ "loss": 0.1489,
877
+ "step": 1210
878
+ },
879
+ {
880
+ "epoch": 2.44,
881
+ "grad_norm": 21.738679885864258,
882
+ "learning_rate": 1.6804444444444447e-05,
883
+ "loss": 0.1837,
884
+ "step": 1220
885
+ },
886
+ {
887
+ "epoch": 2.46,
888
+ "grad_norm": 6.181517601013184,
889
+ "learning_rate": 1.6760000000000002e-05,
890
+ "loss": 0.1605,
891
+ "step": 1230
892
+ },
893
+ {
894
+ "epoch": 2.48,
895
+ "grad_norm": 149.07858276367188,
896
+ "learning_rate": 1.6715555555555557e-05,
897
+ "loss": 0.6675,
898
+ "step": 1240
899
+ },
900
+ {
901
+ "epoch": 2.5,
902
+ "grad_norm": 2.804579019546509,
903
+ "learning_rate": 1.6671111111111113e-05,
904
+ "loss": 0.3242,
905
+ "step": 1250
906
+ },
907
+ {
908
+ "epoch": 2.52,
909
+ "grad_norm": 21.147327423095703,
910
+ "learning_rate": 1.6626666666666668e-05,
911
+ "loss": 0.2767,
912
+ "step": 1260
913
+ },
914
+ {
915
+ "epoch": 2.54,
916
+ "grad_norm": 36.80170440673828,
917
+ "learning_rate": 1.6582222222222223e-05,
918
+ "loss": 0.2293,
919
+ "step": 1270
920
+ },
921
+ {
922
+ "epoch": 2.56,
923
+ "grad_norm": 38.16828918457031,
924
+ "learning_rate": 1.6537777777777778e-05,
925
+ "loss": 0.1559,
926
+ "step": 1280
927
+ },
928
+ {
929
+ "epoch": 2.58,
930
+ "grad_norm": 47.87582778930664,
931
+ "learning_rate": 1.6493333333333334e-05,
932
+ "loss": 0.3709,
933
+ "step": 1290
934
+ },
935
+ {
936
+ "epoch": 2.6,
937
+ "grad_norm": 21.968297958374023,
938
+ "learning_rate": 1.644888888888889e-05,
939
+ "loss": 0.2543,
940
+ "step": 1300
941
+ },
942
+ {
943
+ "epoch": 2.62,
944
+ "grad_norm": 18.02512550354004,
945
+ "learning_rate": 1.6404444444444444e-05,
946
+ "loss": 0.3406,
947
+ "step": 1310
948
+ },
949
+ {
950
+ "epoch": 2.64,
951
+ "grad_norm": 19.838167190551758,
952
+ "learning_rate": 1.636e-05,
953
+ "loss": 0.1962,
954
+ "step": 1320
955
+ },
956
+ {
957
+ "epoch": 2.66,
958
+ "grad_norm": 5.287841796875,
959
+ "learning_rate": 1.6315555555555558e-05,
960
+ "loss": 0.1537,
961
+ "step": 1330
962
+ },
963
+ {
964
+ "epoch": 2.68,
965
+ "grad_norm": 28.65346336364746,
966
+ "learning_rate": 1.6271111111111113e-05,
967
+ "loss": 0.1421,
968
+ "step": 1340
969
+ },
970
+ {
971
+ "epoch": 2.7,
972
+ "grad_norm": 0.4000145494937897,
973
+ "learning_rate": 1.6226666666666668e-05,
974
+ "loss": 0.1102,
975
+ "step": 1350
976
+ },
977
+ {
978
+ "epoch": 2.7199999999999998,
979
+ "grad_norm": 28.52642250061035,
980
+ "learning_rate": 1.6182222222222224e-05,
981
+ "loss": 0.2774,
982
+ "step": 1360
983
+ },
984
+ {
985
+ "epoch": 2.74,
986
+ "grad_norm": 6.255438804626465,
987
+ "learning_rate": 1.613777777777778e-05,
988
+ "loss": 0.1992,
989
+ "step": 1370
990
+ },
991
+ {
992
+ "epoch": 2.76,
993
+ "grad_norm": 21.253192901611328,
994
+ "learning_rate": 1.6093333333333334e-05,
995
+ "loss": 0.1188,
996
+ "step": 1380
997
+ },
998
+ {
999
+ "epoch": 2.7800000000000002,
1000
+ "grad_norm": 15.576492309570312,
1001
+ "learning_rate": 1.604888888888889e-05,
1002
+ "loss": 0.2183,
1003
+ "step": 1390
1004
+ },
1005
+ {
1006
+ "epoch": 2.8,
1007
+ "grad_norm": 9.187088966369629,
1008
+ "learning_rate": 1.6004444444444444e-05,
1009
+ "loss": 0.1971,
1010
+ "step": 1400
1011
+ },
1012
+ {
1013
+ "epoch": 2.82,
1014
+ "grad_norm": 30.70630645751953,
1015
+ "learning_rate": 1.5960000000000003e-05,
1016
+ "loss": 0.2779,
1017
+ "step": 1410
1018
+ },
1019
+ {
1020
+ "epoch": 2.84,
1021
+ "grad_norm": 17.452098846435547,
1022
+ "learning_rate": 1.5915555555555558e-05,
1023
+ "loss": 0.2113,
1024
+ "step": 1420
1025
+ },
1026
+ {
1027
+ "epoch": 2.86,
1028
+ "grad_norm": 17.608312606811523,
1029
+ "learning_rate": 1.5871111111111114e-05,
1030
+ "loss": 0.1092,
1031
+ "step": 1430
1032
+ },
1033
+ {
1034
+ "epoch": 2.88,
1035
+ "grad_norm": 32.2493782043457,
1036
+ "learning_rate": 1.582666666666667e-05,
1037
+ "loss": 0.2269,
1038
+ "step": 1440
1039
+ },
1040
+ {
1041
+ "epoch": 2.9,
1042
+ "grad_norm": 30.024198532104492,
1043
+ "learning_rate": 1.5782222222222224e-05,
1044
+ "loss": 0.1643,
1045
+ "step": 1450
1046
+ },
1047
+ {
1048
+ "epoch": 2.92,
1049
+ "grad_norm": 13.362605094909668,
1050
+ "learning_rate": 1.573777777777778e-05,
1051
+ "loss": 0.1579,
1052
+ "step": 1460
1053
+ },
1054
+ {
1055
+ "epoch": 2.94,
1056
+ "grad_norm": 44.10908889770508,
1057
+ "learning_rate": 1.5693333333333334e-05,
1058
+ "loss": 0.3983,
1059
+ "step": 1470
1060
+ },
1061
+ {
1062
+ "epoch": 2.96,
1063
+ "grad_norm": 0.3614502549171448,
1064
+ "learning_rate": 1.564888888888889e-05,
1065
+ "loss": 0.1308,
1066
+ "step": 1480
1067
+ },
1068
+ {
1069
+ "epoch": 2.98,
1070
+ "grad_norm": 21.591156005859375,
1071
+ "learning_rate": 1.5604444444444445e-05,
1072
+ "loss": 0.2434,
1073
+ "step": 1490
1074
+ },
1075
+ {
1076
+ "epoch": 3.0,
1077
+ "grad_norm": 88.01856994628906,
1078
+ "learning_rate": 1.556e-05,
1079
+ "loss": 0.2011,
1080
+ "step": 1500
1081
+ },
1082
+ {
1083
+ "epoch": 3.0,
1084
+ "eval_accuracy": 0.943,
1085
+ "eval_f1": 0.942998574964374,
1086
+ "eval_loss": 0.19041989743709564,
1087
+ "eval_runtime": 30.3793,
1088
+ "eval_samples_per_second": 32.917,
1089
+ "eval_steps_per_second": 8.229,
1090
+ "step": 1500
1091
+ },
1092
+ {
1093
+ "epoch": 3.02,
1094
+ "grad_norm": 1.8379559516906738,
1095
+ "learning_rate": 1.551555555555556e-05,
1096
+ "loss": 0.2057,
1097
+ "step": 1510
1098
+ },
1099
+ {
1100
+ "epoch": 3.04,
1101
+ "grad_norm": 46.800601959228516,
1102
+ "learning_rate": 1.5471111111111114e-05,
1103
+ "loss": 0.4046,
1104
+ "step": 1520
1105
+ },
1106
+ {
1107
+ "epoch": 3.06,
1108
+ "grad_norm": 21.864349365234375,
1109
+ "learning_rate": 1.542666666666667e-05,
1110
+ "loss": 0.1659,
1111
+ "step": 1530
1112
+ },
1113
+ {
1114
+ "epoch": 3.08,
1115
+ "grad_norm": 7.908141136169434,
1116
+ "learning_rate": 1.5382222222222224e-05,
1117
+ "loss": 0.2331,
1118
+ "step": 1540
1119
+ },
1120
+ {
1121
+ "epoch": 3.1,
1122
+ "grad_norm": 18.538442611694336,
1123
+ "learning_rate": 1.533777777777778e-05,
1124
+ "loss": 0.1854,
1125
+ "step": 1550
1126
+ },
1127
+ {
1128
+ "epoch": 3.12,
1129
+ "grad_norm": 40.80357360839844,
1130
+ "learning_rate": 1.5293333333333335e-05,
1131
+ "loss": 0.2135,
1132
+ "step": 1560
1133
+ },
1134
+ {
1135
+ "epoch": 3.14,
1136
+ "grad_norm": 1.620383620262146,
1137
+ "learning_rate": 1.524888888888889e-05,
1138
+ "loss": 0.1951,
1139
+ "step": 1570
1140
+ },
1141
+ {
1142
+ "epoch": 3.16,
1143
+ "grad_norm": 2.628443479537964,
1144
+ "learning_rate": 1.5204444444444445e-05,
1145
+ "loss": 0.1904,
1146
+ "step": 1580
1147
+ },
1148
+ {
1149
+ "epoch": 3.18,
1150
+ "grad_norm": 15.306695938110352,
1151
+ "learning_rate": 1.516e-05,
1152
+ "loss": 0.1893,
1153
+ "step": 1590
1154
+ },
1155
+ {
1156
+ "epoch": 3.2,
1157
+ "grad_norm": 25.99905776977539,
1158
+ "learning_rate": 1.5115555555555557e-05,
1159
+ "loss": 0.159,
1160
+ "step": 1600
1161
+ },
1162
+ {
1163
+ "epoch": 3.22,
1164
+ "grad_norm": 11.686138153076172,
1165
+ "learning_rate": 1.5071111111111113e-05,
1166
+ "loss": 0.2497,
1167
+ "step": 1610
1168
+ },
1169
+ {
1170
+ "epoch": 3.24,
1171
+ "grad_norm": 25.670528411865234,
1172
+ "learning_rate": 1.5026666666666668e-05,
1173
+ "loss": 0.2566,
1174
+ "step": 1620
1175
+ },
1176
+ {
1177
+ "epoch": 3.26,
1178
+ "grad_norm": 10.855093955993652,
1179
+ "learning_rate": 1.4982222222222223e-05,
1180
+ "loss": 0.2122,
1181
+ "step": 1630
1182
+ },
1183
+ {
1184
+ "epoch": 3.2800000000000002,
1185
+ "grad_norm": 34.505889892578125,
1186
+ "learning_rate": 1.493777777777778e-05,
1187
+ "loss": 0.1417,
1188
+ "step": 1640
1189
+ },
1190
+ {
1191
+ "epoch": 3.3,
1192
+ "grad_norm": 0.39806950092315674,
1193
+ "learning_rate": 1.4893333333333335e-05,
1194
+ "loss": 0.1578,
1195
+ "step": 1650
1196
+ },
1197
+ {
1198
+ "epoch": 3.32,
1199
+ "grad_norm": 52.81280517578125,
1200
+ "learning_rate": 1.484888888888889e-05,
1201
+ "loss": 0.3021,
1202
+ "step": 1660
1203
+ },
1204
+ {
1205
+ "epoch": 3.34,
1206
+ "grad_norm": 7.325490951538086,
1207
+ "learning_rate": 1.4804444444444446e-05,
1208
+ "loss": 0.1146,
1209
+ "step": 1670
1210
+ },
1211
+ {
1212
+ "epoch": 3.36,
1213
+ "grad_norm": 37.745338439941406,
1214
+ "learning_rate": 1.4760000000000001e-05,
1215
+ "loss": 0.2698,
1216
+ "step": 1680
1217
+ },
1218
+ {
1219
+ "epoch": 3.38,
1220
+ "grad_norm": 7.735448837280273,
1221
+ "learning_rate": 1.4715555555555556e-05,
1222
+ "loss": 0.166,
1223
+ "step": 1690
1224
+ },
1225
+ {
1226
+ "epoch": 3.4,
1227
+ "grad_norm": 4.137513160705566,
1228
+ "learning_rate": 1.4671111111111111e-05,
1229
+ "loss": 0.1545,
1230
+ "step": 1700
1231
+ },
1232
+ {
1233
+ "epoch": 3.42,
1234
+ "grad_norm": 19.922504425048828,
1235
+ "learning_rate": 1.4626666666666667e-05,
1236
+ "loss": 0.2449,
1237
+ "step": 1710
1238
+ },
1239
+ {
1240
+ "epoch": 3.44,
1241
+ "grad_norm": 4.400410175323486,
1242
+ "learning_rate": 1.4582222222222224e-05,
1243
+ "loss": 0.114,
1244
+ "step": 1720
1245
+ },
1246
+ {
1247
+ "epoch": 3.46,
1248
+ "grad_norm": 11.147945404052734,
1249
+ "learning_rate": 1.4537777777777779e-05,
1250
+ "loss": 0.1963,
1251
+ "step": 1730
1252
+ },
1253
+ {
1254
+ "epoch": 3.48,
1255
+ "grad_norm": 38.05915451049805,
1256
+ "learning_rate": 1.4493333333333334e-05,
1257
+ "loss": 0.1735,
1258
+ "step": 1740
1259
+ },
1260
+ {
1261
+ "epoch": 3.5,
1262
+ "grad_norm": 18.937192916870117,
1263
+ "learning_rate": 1.444888888888889e-05,
1264
+ "loss": 0.2888,
1265
+ "step": 1750
1266
+ },
1267
+ {
1268
+ "epoch": 3.52,
1269
+ "grad_norm": 14.521891593933105,
1270
+ "learning_rate": 1.4404444444444445e-05,
1271
+ "loss": 0.1754,
1272
+ "step": 1760
1273
+ },
1274
+ {
1275
+ "epoch": 3.54,
1276
+ "grad_norm": 43.17352294921875,
1277
+ "learning_rate": 1.4360000000000001e-05,
1278
+ "loss": 0.122,
1279
+ "step": 1770
1280
+ },
1281
+ {
1282
+ "epoch": 3.56,
1283
+ "grad_norm": 21.43621253967285,
1284
+ "learning_rate": 1.4315555555555557e-05,
1285
+ "loss": 0.2605,
1286
+ "step": 1780
1287
+ },
1288
+ {
1289
+ "epoch": 3.58,
1290
+ "grad_norm": 30.05827522277832,
1291
+ "learning_rate": 1.4271111111111114e-05,
1292
+ "loss": 0.1491,
1293
+ "step": 1790
1294
+ },
1295
+ {
1296
+ "epoch": 3.6,
1297
+ "grad_norm": 22.7985782623291,
1298
+ "learning_rate": 1.4226666666666669e-05,
1299
+ "loss": 0.1748,
1300
+ "step": 1800
1301
+ },
1302
+ {
1303
+ "epoch": 3.62,
1304
+ "grad_norm": 38.500144958496094,
1305
+ "learning_rate": 1.4182222222222224e-05,
1306
+ "loss": 0.1447,
1307
+ "step": 1810
1308
+ },
1309
+ {
1310
+ "epoch": 3.64,
1311
+ "grad_norm": 45.30653381347656,
1312
+ "learning_rate": 1.413777777777778e-05,
1313
+ "loss": 0.2679,
1314
+ "step": 1820
1315
+ },
1316
+ {
1317
+ "epoch": 3.66,
1318
+ "grad_norm": 23.648662567138672,
1319
+ "learning_rate": 1.4093333333333334e-05,
1320
+ "loss": 0.1561,
1321
+ "step": 1830
1322
+ },
1323
+ {
1324
+ "epoch": 3.68,
1325
+ "grad_norm": 36.9411506652832,
1326
+ "learning_rate": 1.404888888888889e-05,
1327
+ "loss": 0.295,
1328
+ "step": 1840
1329
+ },
1330
+ {
1331
+ "epoch": 3.7,
1332
+ "grad_norm": 28.359508514404297,
1333
+ "learning_rate": 1.4004444444444445e-05,
1334
+ "loss": 0.4014,
1335
+ "step": 1850
1336
+ },
1337
+ {
1338
+ "epoch": 3.7199999999999998,
1339
+ "grad_norm": 10.89101505279541,
1340
+ "learning_rate": 1.396e-05,
1341
+ "loss": 0.2173,
1342
+ "step": 1860
1343
+ },
1344
+ {
1345
+ "epoch": 3.74,
1346
+ "grad_norm": 15.564366340637207,
1347
+ "learning_rate": 1.3915555555555557e-05,
1348
+ "loss": 0.2257,
1349
+ "step": 1870
1350
+ },
1351
+ {
1352
+ "epoch": 3.76,
1353
+ "grad_norm": 23.144323348999023,
1354
+ "learning_rate": 1.3871111111111112e-05,
1355
+ "loss": 0.149,
1356
+ "step": 1880
1357
+ },
1358
+ {
1359
+ "epoch": 3.7800000000000002,
1360
+ "grad_norm": 13.484160423278809,
1361
+ "learning_rate": 1.3826666666666668e-05,
1362
+ "loss": 0.2424,
1363
+ "step": 1890
1364
+ },
1365
+ {
1366
+ "epoch": 3.8,
1367
+ "grad_norm": 7.094886779785156,
1368
+ "learning_rate": 1.3782222222222223e-05,
1369
+ "loss": 0.2149,
1370
+ "step": 1900
1371
+ },
1372
+ {
1373
+ "epoch": 3.82,
1374
+ "grad_norm": 1.2347443103790283,
1375
+ "learning_rate": 1.3737777777777778e-05,
1376
+ "loss": 0.2437,
1377
+ "step": 1910
1378
+ },
1379
+ {
1380
+ "epoch": 3.84,
1381
+ "grad_norm": 22.62339210510254,
1382
+ "learning_rate": 1.3693333333333333e-05,
1383
+ "loss": 0.1447,
1384
+ "step": 1920
1385
+ },
1386
+ {
1387
+ "epoch": 3.86,
1388
+ "grad_norm": 12.070813179016113,
1389
+ "learning_rate": 1.3648888888888888e-05,
1390
+ "loss": 0.236,
1391
+ "step": 1930
1392
+ },
1393
+ {
1394
+ "epoch": 3.88,
1395
+ "grad_norm": 27.812957763671875,
1396
+ "learning_rate": 1.3604444444444445e-05,
1397
+ "loss": 0.2585,
1398
+ "step": 1940
1399
+ },
1400
+ {
1401
+ "epoch": 3.9,
1402
+ "grad_norm": 11.734875679016113,
1403
+ "learning_rate": 1.3560000000000002e-05,
1404
+ "loss": 0.1325,
1405
+ "step": 1950
1406
+ },
1407
+ {
1408
+ "epoch": 3.92,
1409
+ "grad_norm": 38.58415985107422,
1410
+ "learning_rate": 1.3515555555555558e-05,
1411
+ "loss": 0.1737,
1412
+ "step": 1960
1413
+ },
1414
+ {
1415
+ "epoch": 3.94,
1416
+ "grad_norm": 26.56049346923828,
1417
+ "learning_rate": 1.3471111111111113e-05,
1418
+ "loss": 0.2847,
1419
+ "step": 1970
1420
+ },
1421
+ {
1422
+ "epoch": 3.96,
1423
+ "grad_norm": 11.361990928649902,
1424
+ "learning_rate": 1.3426666666666668e-05,
1425
+ "loss": 0.1996,
1426
+ "step": 1980
1427
+ },
1428
+ {
1429
+ "epoch": 3.98,
1430
+ "grad_norm": 18.39456558227539,
1431
+ "learning_rate": 1.3382222222222223e-05,
1432
+ "loss": 0.1508,
1433
+ "step": 1990
1434
+ },
1435
+ {
1436
+ "epoch": 4.0,
1437
+ "grad_norm": 0.5500530004501343,
1438
+ "learning_rate": 1.3337777777777778e-05,
1439
+ "loss": 0.148,
1440
+ "step": 2000
1441
+ },
1442
+ {
1443
+ "epoch": 4.0,
1444
+ "eval_accuracy": 0.94,
1445
+ "eval_f1": 0.9398939729683161,
1446
+ "eval_loss": 0.22131694853305817,
1447
+ "eval_runtime": 30.267,
1448
+ "eval_samples_per_second": 33.039,
1449
+ "eval_steps_per_second": 8.26,
1450
+ "step": 2000
1451
+ },
1452
+ {
1453
+ "epoch": 4.02,
1454
+ "grad_norm": 3.5321168899536133,
1455
+ "learning_rate": 1.3293333333333334e-05,
1456
+ "loss": 0.1644,
1457
+ "step": 2010
1458
+ },
1459
+ {
1460
+ "epoch": 4.04,
1461
+ "grad_norm": 4.120967388153076,
1462
+ "learning_rate": 1.3248888888888889e-05,
1463
+ "loss": 0.1932,
1464
+ "step": 2020
1465
+ },
1466
+ {
1467
+ "epoch": 4.06,
1468
+ "grad_norm": 39.295780181884766,
1469
+ "learning_rate": 1.3204444444444446e-05,
1470
+ "loss": 0.1401,
1471
+ "step": 2030
1472
+ },
1473
+ {
1474
+ "epoch": 4.08,
1475
+ "grad_norm": 57.636512756347656,
1476
+ "learning_rate": 1.3160000000000001e-05,
1477
+ "loss": 0.1878,
1478
+ "step": 2040
1479
+ },
1480
+ {
1481
+ "epoch": 4.1,
1482
+ "grad_norm": 53.09981918334961,
1483
+ "learning_rate": 1.3115555555555556e-05,
1484
+ "loss": 0.3142,
1485
+ "step": 2050
1486
+ },
1487
+ {
1488
+ "epoch": 4.12,
1489
+ "grad_norm": 62.46212387084961,
1490
+ "learning_rate": 1.3071111111111112e-05,
1491
+ "loss": 0.2084,
1492
+ "step": 2060
1493
+ },
1494
+ {
1495
+ "epoch": 4.14,
1496
+ "grad_norm": 51.00809097290039,
1497
+ "learning_rate": 1.3026666666666667e-05,
1498
+ "loss": 0.0393,
1499
+ "step": 2070
1500
+ },
1501
+ {
1502
+ "epoch": 4.16,
1503
+ "grad_norm": 42.36974334716797,
1504
+ "learning_rate": 1.2982222222222222e-05,
1505
+ "loss": 0.1726,
1506
+ "step": 2080
1507
+ },
1508
+ {
1509
+ "epoch": 4.18,
1510
+ "grad_norm": 13.51379680633545,
1511
+ "learning_rate": 1.2937777777777777e-05,
1512
+ "loss": 0.2634,
1513
+ "step": 2090
1514
+ },
1515
+ {
1516
+ "epoch": 4.2,
1517
+ "grad_norm": 22.461063385009766,
1518
+ "learning_rate": 1.2893333333333336e-05,
1519
+ "loss": 0.2389,
1520
+ "step": 2100
1521
+ },
1522
+ {
1523
+ "epoch": 4.22,
1524
+ "grad_norm": 15.937604904174805,
1525
+ "learning_rate": 1.2848888888888891e-05,
1526
+ "loss": 0.1298,
1527
+ "step": 2110
1528
+ },
1529
+ {
1530
+ "epoch": 4.24,
1531
+ "grad_norm": 104.74687194824219,
1532
+ "learning_rate": 1.2804444444444446e-05,
1533
+ "loss": 0.3002,
1534
+ "step": 2120
1535
+ },
1536
+ {
1537
+ "epoch": 4.26,
1538
+ "grad_norm": 27.39605712890625,
1539
+ "learning_rate": 1.2760000000000001e-05,
1540
+ "loss": 0.2131,
1541
+ "step": 2130
1542
+ },
1543
+ {
1544
+ "epoch": 4.28,
1545
+ "grad_norm": 26.905942916870117,
1546
+ "learning_rate": 1.2715555555555557e-05,
1547
+ "loss": 0.2251,
1548
+ "step": 2140
1549
+ },
1550
+ {
1551
+ "epoch": 4.3,
1552
+ "grad_norm": 18.32789421081543,
1553
+ "learning_rate": 1.2671111111111112e-05,
1554
+ "loss": 0.2338,
1555
+ "step": 2150
1556
+ },
1557
+ {
1558
+ "epoch": 4.32,
1559
+ "grad_norm": 10.798887252807617,
1560
+ "learning_rate": 1.2626666666666667e-05,
1561
+ "loss": 0.1193,
1562
+ "step": 2160
1563
+ },
1564
+ {
1565
+ "epoch": 4.34,
1566
+ "grad_norm": 0.835350751876831,
1567
+ "learning_rate": 1.2582222222222222e-05,
1568
+ "loss": 0.1451,
1569
+ "step": 2170
1570
+ },
1571
+ {
1572
+ "epoch": 4.36,
1573
+ "grad_norm": 1.8880776166915894,
1574
+ "learning_rate": 1.253777777777778e-05,
1575
+ "loss": 0.2645,
1576
+ "step": 2180
1577
+ },
1578
+ {
1579
+ "epoch": 4.38,
1580
+ "grad_norm": 15.520007133483887,
1581
+ "learning_rate": 1.2493333333333335e-05,
1582
+ "loss": 0.1527,
1583
+ "step": 2190
1584
+ },
1585
+ {
1586
+ "epoch": 4.4,
1587
+ "grad_norm": 25.192886352539062,
1588
+ "learning_rate": 1.244888888888889e-05,
1589
+ "loss": 0.167,
1590
+ "step": 2200
1591
+ },
1592
+ {
1593
+ "epoch": 4.42,
1594
+ "grad_norm": 4.3098015785217285,
1595
+ "learning_rate": 1.2404444444444445e-05,
1596
+ "loss": 0.189,
1597
+ "step": 2210
1598
+ },
1599
+ {
1600
+ "epoch": 4.44,
1601
+ "grad_norm": 2.7653181552886963,
1602
+ "learning_rate": 1.236e-05,
1603
+ "loss": 0.1935,
1604
+ "step": 2220
1605
+ },
1606
+ {
1607
+ "epoch": 4.46,
1608
+ "grad_norm": 4.679973602294922,
1609
+ "learning_rate": 1.2315555555555555e-05,
1610
+ "loss": 0.1887,
1611
+ "step": 2230
1612
+ },
1613
+ {
1614
+ "epoch": 4.48,
1615
+ "grad_norm": 4.953944206237793,
1616
+ "learning_rate": 1.227111111111111e-05,
1617
+ "loss": 0.123,
1618
+ "step": 2240
1619
+ },
1620
+ {
1621
+ "epoch": 4.5,
1622
+ "grad_norm": 39.78113555908203,
1623
+ "learning_rate": 1.2226666666666666e-05,
1624
+ "loss": 0.1407,
1625
+ "step": 2250
1626
+ },
1627
+ {
1628
+ "epoch": 4.52,
1629
+ "grad_norm": 3.2863030433654785,
1630
+ "learning_rate": 1.2182222222222225e-05,
1631
+ "loss": 0.1604,
1632
+ "step": 2260
1633
+ },
1634
+ {
1635
+ "epoch": 4.54,
1636
+ "grad_norm": 0.6902189254760742,
1637
+ "learning_rate": 1.213777777777778e-05,
1638
+ "loss": 0.2475,
1639
+ "step": 2270
1640
+ },
1641
+ {
1642
+ "epoch": 4.5600000000000005,
1643
+ "grad_norm": 23.48111915588379,
1644
+ "learning_rate": 1.2093333333333335e-05,
1645
+ "loss": 0.1653,
1646
+ "step": 2280
1647
+ },
1648
+ {
1649
+ "epoch": 4.58,
1650
+ "grad_norm": 16.93704605102539,
1651
+ "learning_rate": 1.204888888888889e-05,
1652
+ "loss": 0.1912,
1653
+ "step": 2290
1654
+ },
1655
+ {
1656
+ "epoch": 4.6,
1657
+ "grad_norm": 28.812259674072266,
1658
+ "learning_rate": 1.2004444444444445e-05,
1659
+ "loss": 0.2225,
1660
+ "step": 2300
1661
+ },
1662
+ {
1663
+ "epoch": 4.62,
1664
+ "grad_norm": 53.4343147277832,
1665
+ "learning_rate": 1.196e-05,
1666
+ "loss": 0.3252,
1667
+ "step": 2310
1668
+ },
1669
+ {
1670
+ "epoch": 4.64,
1671
+ "grad_norm": 0.4182775914669037,
1672
+ "learning_rate": 1.1915555555555556e-05,
1673
+ "loss": 0.1862,
1674
+ "step": 2320
1675
+ },
1676
+ {
1677
+ "epoch": 4.66,
1678
+ "grad_norm": 24.21963882446289,
1679
+ "learning_rate": 1.1871111111111111e-05,
1680
+ "loss": 0.1843,
1681
+ "step": 2330
1682
+ },
1683
+ {
1684
+ "epoch": 4.68,
1685
+ "grad_norm": 20.485177993774414,
1686
+ "learning_rate": 1.1826666666666668e-05,
1687
+ "loss": 0.3123,
1688
+ "step": 2340
1689
+ },
1690
+ {
1691
+ "epoch": 4.7,
1692
+ "grad_norm": 1.3782835006713867,
1693
+ "learning_rate": 1.1782222222222223e-05,
1694
+ "loss": 0.0777,
1695
+ "step": 2350
1696
+ },
1697
+ {
1698
+ "epoch": 4.72,
1699
+ "grad_norm": 0.586630642414093,
1700
+ "learning_rate": 1.1737777777777779e-05,
1701
+ "loss": 0.177,
1702
+ "step": 2360
1703
+ },
1704
+ {
1705
+ "epoch": 4.74,
1706
+ "grad_norm": 7.843757629394531,
1707
+ "learning_rate": 1.1693333333333334e-05,
1708
+ "loss": 0.1486,
1709
+ "step": 2370
1710
+ },
1711
+ {
1712
+ "epoch": 4.76,
1713
+ "grad_norm": 30.758705139160156,
1714
+ "learning_rate": 1.1648888888888889e-05,
1715
+ "loss": 0.2756,
1716
+ "step": 2380
1717
+ },
1718
+ {
1719
+ "epoch": 4.78,
1720
+ "grad_norm": 27.14581871032715,
1721
+ "learning_rate": 1.1604444444444444e-05,
1722
+ "loss": 0.1093,
1723
+ "step": 2390
1724
+ },
1725
+ {
1726
+ "epoch": 4.8,
1727
+ "grad_norm": 48.31925964355469,
1728
+ "learning_rate": 1.156e-05,
1729
+ "loss": 0.1733,
1730
+ "step": 2400
1731
+ },
1732
+ {
1733
+ "epoch": 4.82,
1734
+ "grad_norm": 17.163951873779297,
1735
+ "learning_rate": 1.1515555555555558e-05,
1736
+ "loss": 0.1109,
1737
+ "step": 2410
1738
+ },
1739
+ {
1740
+ "epoch": 4.84,
1741
+ "grad_norm": 5.78603982925415,
1742
+ "learning_rate": 1.1471111111111113e-05,
1743
+ "loss": 0.1218,
1744
+ "step": 2420
1745
+ },
1746
+ {
1747
+ "epoch": 4.86,
1748
+ "grad_norm": 44.63603591918945,
1749
+ "learning_rate": 1.1426666666666669e-05,
1750
+ "loss": 0.1735,
1751
+ "step": 2430
1752
+ },
1753
+ {
1754
+ "epoch": 4.88,
1755
+ "grad_norm": 19.162769317626953,
1756
+ "learning_rate": 1.1382222222222224e-05,
1757
+ "loss": 0.1189,
1758
+ "step": 2440
1759
+ },
1760
+ {
1761
+ "epoch": 4.9,
1762
+ "grad_norm": 25.640684127807617,
1763
+ "learning_rate": 1.1337777777777779e-05,
1764
+ "loss": 0.3697,
1765
+ "step": 2450
1766
+ },
1767
+ {
1768
+ "epoch": 4.92,
1769
+ "grad_norm": 19.950056076049805,
1770
+ "learning_rate": 1.1293333333333334e-05,
1771
+ "loss": 0.2028,
1772
+ "step": 2460
1773
+ },
1774
+ {
1775
+ "epoch": 4.9399999999999995,
1776
+ "grad_norm": 18.671239852905273,
1777
+ "learning_rate": 1.124888888888889e-05,
1778
+ "loss": 0.2085,
1779
+ "step": 2470
1780
+ },
1781
+ {
1782
+ "epoch": 4.96,
1783
+ "grad_norm": 18.14293098449707,
1784
+ "learning_rate": 1.1204444444444445e-05,
1785
+ "loss": 0.1941,
1786
+ "step": 2480
1787
+ },
1788
+ {
1789
+ "epoch": 4.98,
1790
+ "grad_norm": 1.0513025522232056,
1791
+ "learning_rate": 1.1160000000000002e-05,
1792
+ "loss": 0.1125,
1793
+ "step": 2490
1794
+ },
1795
+ {
1796
+ "epoch": 5.0,
1797
+ "grad_norm": 38.60862731933594,
1798
+ "learning_rate": 1.1115555555555557e-05,
1799
+ "loss": 0.2495,
1800
+ "step": 2500
1801
+ },
1802
+ {
1803
+ "epoch": 5.0,
1804
+ "eval_accuracy": 0.933,
1805
+ "eval_f1": 0.9327659583008452,
1806
+ "eval_loss": 0.2518002688884735,
1807
+ "eval_runtime": 30.2127,
1808
+ "eval_samples_per_second": 33.099,
1809
+ "eval_steps_per_second": 8.275,
1810
+ "step": 2500
1811
+ },
1812
+ {
1813
+ "epoch": 5.02,
1814
+ "grad_norm": 10.990840911865234,
1815
+ "learning_rate": 1.1071111111111112e-05,
1816
+ "loss": 0.1974,
1817
+ "step": 2510
1818
+ },
1819
+ {
1820
+ "epoch": 5.04,
1821
+ "grad_norm": 19.053909301757812,
1822
+ "learning_rate": 1.1026666666666667e-05,
1823
+ "loss": 0.2051,
1824
+ "step": 2520
1825
+ },
1826
+ {
1827
+ "epoch": 5.06,
1828
+ "grad_norm": 15.706136703491211,
1829
+ "learning_rate": 1.0982222222222222e-05,
1830
+ "loss": 0.2833,
1831
+ "step": 2530
1832
+ },
1833
+ {
1834
+ "epoch": 5.08,
1835
+ "grad_norm": 8.44626235961914,
1836
+ "learning_rate": 1.0937777777777778e-05,
1837
+ "loss": 0.1218,
1838
+ "step": 2540
1839
+ },
1840
+ {
1841
+ "epoch": 5.1,
1842
+ "grad_norm": 15.728385925292969,
1843
+ "learning_rate": 1.0893333333333333e-05,
1844
+ "loss": 0.1217,
1845
+ "step": 2550
1846
+ },
1847
+ {
1848
+ "epoch": 5.12,
1849
+ "grad_norm": 45.470863342285156,
1850
+ "learning_rate": 1.0848888888888888e-05,
1851
+ "loss": 0.1642,
1852
+ "step": 2560
1853
+ },
1854
+ {
1855
+ "epoch": 5.14,
1856
+ "grad_norm": 12.095916748046875,
1857
+ "learning_rate": 1.0804444444444447e-05,
1858
+ "loss": 0.1315,
1859
+ "step": 2570
1860
+ },
1861
+ {
1862
+ "epoch": 5.16,
1863
+ "grad_norm": 34.28071594238281,
1864
+ "learning_rate": 1.0760000000000002e-05,
1865
+ "loss": 0.2009,
1866
+ "step": 2580
1867
+ },
1868
+ {
1869
+ "epoch": 5.18,
1870
+ "grad_norm": 1.4507266283035278,
1871
+ "learning_rate": 1.0715555555555557e-05,
1872
+ "loss": 0.2578,
1873
+ "step": 2590
1874
+ },
1875
+ {
1876
+ "epoch": 5.2,
1877
+ "grad_norm": 1.8925929069519043,
1878
+ "learning_rate": 1.0671111111111112e-05,
1879
+ "loss": 0.1052,
1880
+ "step": 2600
1881
+ },
1882
+ {
1883
+ "epoch": 5.22,
1884
+ "grad_norm": 58.73183059692383,
1885
+ "learning_rate": 1.0626666666666668e-05,
1886
+ "loss": 0.2423,
1887
+ "step": 2610
1888
+ },
1889
+ {
1890
+ "epoch": 5.24,
1891
+ "grad_norm": 7.366761207580566,
1892
+ "learning_rate": 1.0582222222222223e-05,
1893
+ "loss": 0.1144,
1894
+ "step": 2620
1895
+ },
1896
+ {
1897
+ "epoch": 5.26,
1898
+ "grad_norm": 14.894804000854492,
1899
+ "learning_rate": 1.0537777777777778e-05,
1900
+ "loss": 0.1482,
1901
+ "step": 2630
1902
+ },
1903
+ {
1904
+ "epoch": 5.28,
1905
+ "grad_norm": 40.55244445800781,
1906
+ "learning_rate": 1.0493333333333333e-05,
1907
+ "loss": 0.2189,
1908
+ "step": 2640
1909
+ },
1910
+ {
1911
+ "epoch": 5.3,
1912
+ "grad_norm": 43.855613708496094,
1913
+ "learning_rate": 1.044888888888889e-05,
1914
+ "loss": 0.2089,
1915
+ "step": 2650
1916
+ },
1917
+ {
1918
+ "epoch": 5.32,
1919
+ "grad_norm": 21.032005310058594,
1920
+ "learning_rate": 1.0404444444444446e-05,
1921
+ "loss": 0.1299,
1922
+ "step": 2660
1923
+ },
1924
+ {
1925
+ "epoch": 5.34,
1926
+ "grad_norm": 27.19849395751953,
1927
+ "learning_rate": 1.036e-05,
1928
+ "loss": 0.104,
1929
+ "step": 2670
1930
+ },
1931
+ {
1932
+ "epoch": 5.36,
1933
+ "grad_norm": 51.96659469604492,
1934
+ "learning_rate": 1.0315555555555556e-05,
1935
+ "loss": 0.2076,
1936
+ "step": 2680
1937
+ },
1938
+ {
1939
+ "epoch": 5.38,
1940
+ "grad_norm": 0.3507753014564514,
1941
+ "learning_rate": 1.0271111111111111e-05,
1942
+ "loss": 0.1026,
1943
+ "step": 2690
1944
+ },
1945
+ {
1946
+ "epoch": 5.4,
1947
+ "grad_norm": 1.750388503074646,
1948
+ "learning_rate": 1.0226666666666666e-05,
1949
+ "loss": 0.1966,
1950
+ "step": 2700
1951
+ },
1952
+ {
1953
+ "epoch": 5.42,
1954
+ "grad_norm": 8.199036598205566,
1955
+ "learning_rate": 1.0182222222222222e-05,
1956
+ "loss": 0.2406,
1957
+ "step": 2710
1958
+ },
1959
+ {
1960
+ "epoch": 5.44,
1961
+ "grad_norm": 0.7768567800521851,
1962
+ "learning_rate": 1.013777777777778e-05,
1963
+ "loss": 0.1468,
1964
+ "step": 2720
1965
+ },
1966
+ {
1967
+ "epoch": 5.46,
1968
+ "grad_norm": 32.09335708618164,
1969
+ "learning_rate": 1.0093333333333336e-05,
1970
+ "loss": 0.2149,
1971
+ "step": 2730
1972
+ },
1973
+ {
1974
+ "epoch": 5.48,
1975
+ "grad_norm": 2.854344367980957,
1976
+ "learning_rate": 1.004888888888889e-05,
1977
+ "loss": 0.1056,
1978
+ "step": 2740
1979
+ },
1980
+ {
1981
+ "epoch": 5.5,
1982
+ "grad_norm": 0.2860747277736664,
1983
+ "learning_rate": 1.0004444444444446e-05,
1984
+ "loss": 0.1031,
1985
+ "step": 2750
1986
+ },
1987
+ {
1988
+ "epoch": 5.52,
1989
+ "grad_norm": 0.13128729164600372,
1990
+ "learning_rate": 9.960000000000001e-06,
1991
+ "loss": 0.1356,
1992
+ "step": 2760
1993
+ },
1994
+ {
1995
+ "epoch": 5.54,
1996
+ "grad_norm": 1.2036856412887573,
1997
+ "learning_rate": 9.915555555555556e-06,
1998
+ "loss": 0.2371,
1999
+ "step": 2770
2000
+ },
2001
+ {
2002
+ "epoch": 5.5600000000000005,
2003
+ "grad_norm": 0.41086897253990173,
2004
+ "learning_rate": 9.871111111111112e-06,
2005
+ "loss": 0.2158,
2006
+ "step": 2780
2007
+ },
2008
+ {
2009
+ "epoch": 5.58,
2010
+ "grad_norm": 36.4199333190918,
2011
+ "learning_rate": 9.826666666666667e-06,
2012
+ "loss": 0.2554,
2013
+ "step": 2790
2014
+ },
2015
+ {
2016
+ "epoch": 5.6,
2017
+ "grad_norm": 1.2346614599227905,
2018
+ "learning_rate": 9.782222222222222e-06,
2019
+ "loss": 0.0941,
2020
+ "step": 2800
2021
+ },
2022
+ {
2023
+ "epoch": 5.62,
2024
+ "grad_norm": 27.04618263244629,
2025
+ "learning_rate": 9.737777777777779e-06,
2026
+ "loss": 0.2401,
2027
+ "step": 2810
2028
+ },
2029
+ {
2030
+ "epoch": 5.64,
2031
+ "grad_norm": 1.1414395570755005,
2032
+ "learning_rate": 9.693333333333334e-06,
2033
+ "loss": 0.0823,
2034
+ "step": 2820
2035
+ },
2036
+ {
2037
+ "epoch": 5.66,
2038
+ "grad_norm": 1.9344542026519775,
2039
+ "learning_rate": 9.64888888888889e-06,
2040
+ "loss": 0.1635,
2041
+ "step": 2830
2042
+ },
2043
+ {
2044
+ "epoch": 5.68,
2045
+ "grad_norm": 27.868221282958984,
2046
+ "learning_rate": 9.604444444444445e-06,
2047
+ "loss": 0.0922,
2048
+ "step": 2840
2049
+ },
2050
+ {
2051
+ "epoch": 5.7,
2052
+ "grad_norm": 52.5321159362793,
2053
+ "learning_rate": 9.56e-06,
2054
+ "loss": 0.1685,
2055
+ "step": 2850
2056
+ },
2057
+ {
2058
+ "epoch": 5.72,
2059
+ "grad_norm": 0.31496888399124146,
2060
+ "learning_rate": 9.515555555555557e-06,
2061
+ "loss": 0.1732,
2062
+ "step": 2860
2063
+ },
2064
+ {
2065
+ "epoch": 5.74,
2066
+ "grad_norm": 56.81837463378906,
2067
+ "learning_rate": 9.471111111111112e-06,
2068
+ "loss": 0.1365,
2069
+ "step": 2870
2070
+ },
2071
+ {
2072
+ "epoch": 5.76,
2073
+ "grad_norm": 0.8081420063972473,
2074
+ "learning_rate": 9.426666666666667e-06,
2075
+ "loss": 0.1975,
2076
+ "step": 2880
2077
+ },
2078
+ {
2079
+ "epoch": 5.78,
2080
+ "grad_norm": 41.46681213378906,
2081
+ "learning_rate": 9.382222222222223e-06,
2082
+ "loss": 0.2486,
2083
+ "step": 2890
2084
+ },
2085
+ {
2086
+ "epoch": 5.8,
2087
+ "grad_norm": 1.1390793323516846,
2088
+ "learning_rate": 9.33777777777778e-06,
2089
+ "loss": 0.0868,
2090
+ "step": 2900
2091
+ },
2092
+ {
2093
+ "epoch": 5.82,
2094
+ "grad_norm": 15.006202697753906,
2095
+ "learning_rate": 9.293333333333335e-06,
2096
+ "loss": 0.0674,
2097
+ "step": 2910
2098
+ },
2099
+ {
2100
+ "epoch": 5.84,
2101
+ "grad_norm": 82.01433563232422,
2102
+ "learning_rate": 9.24888888888889e-06,
2103
+ "loss": 0.3862,
2104
+ "step": 2920
2105
+ },
2106
+ {
2107
+ "epoch": 5.86,
2108
+ "grad_norm": 12.839020729064941,
2109
+ "learning_rate": 9.204444444444445e-06,
2110
+ "loss": 0.2501,
2111
+ "step": 2930
2112
+ },
2113
+ {
2114
+ "epoch": 5.88,
2115
+ "grad_norm": 85.69068908691406,
2116
+ "learning_rate": 9.16e-06,
2117
+ "loss": 0.3085,
2118
+ "step": 2940
2119
+ },
2120
+ {
2121
+ "epoch": 5.9,
2122
+ "grad_norm": 0.5775724649429321,
2123
+ "learning_rate": 9.115555555555556e-06,
2124
+ "loss": 0.0794,
2125
+ "step": 2950
2126
+ },
2127
+ {
2128
+ "epoch": 5.92,
2129
+ "grad_norm": 4.104339599609375,
2130
+ "learning_rate": 9.07111111111111e-06,
2131
+ "loss": 0.223,
2132
+ "step": 2960
2133
+ },
2134
+ {
2135
+ "epoch": 5.9399999999999995,
2136
+ "grad_norm": 40.91716384887695,
2137
+ "learning_rate": 9.026666666666666e-06,
2138
+ "loss": 0.1753,
2139
+ "step": 2970
2140
+ },
2141
+ {
2142
+ "epoch": 5.96,
2143
+ "grad_norm": 0.10914236307144165,
2144
+ "learning_rate": 8.982222222222223e-06,
2145
+ "loss": 0.0948,
2146
+ "step": 2980
2147
+ },
2148
+ {
2149
+ "epoch": 5.98,
2150
+ "grad_norm": 21.106658935546875,
2151
+ "learning_rate": 8.937777777777778e-06,
2152
+ "loss": 0.1354,
2153
+ "step": 2990
2154
+ },
2155
+ {
2156
+ "epoch": 6.0,
2157
+ "grad_norm": 90.81141662597656,
2158
+ "learning_rate": 8.893333333333333e-06,
2159
+ "loss": 0.1926,
2160
+ "step": 3000
2161
+ },
2162
+ {
2163
+ "epoch": 6.0,
2164
+ "eval_accuracy": 0.966,
2165
+ "eval_f1": 0.965996599659966,
2166
+ "eval_loss": 0.11545314639806747,
2167
+ "eval_runtime": 29.9434,
2168
+ "eval_samples_per_second": 33.396,
2169
+ "eval_steps_per_second": 8.349,
2170
+ "step": 3000
2171
+ },
2172
+ {
2173
+ "epoch": 6.02,
2174
+ "grad_norm": 0.5302955508232117,
2175
+ "learning_rate": 8.848888888888889e-06,
2176
+ "loss": 0.1533,
2177
+ "step": 3010
2178
+ },
2179
+ {
2180
+ "epoch": 6.04,
2181
+ "grad_norm": 43.09284210205078,
2182
+ "learning_rate": 8.804444444444446e-06,
2183
+ "loss": 0.121,
2184
+ "step": 3020
2185
+ },
2186
+ {
2187
+ "epoch": 6.06,
2188
+ "grad_norm": 4.103011131286621,
2189
+ "learning_rate": 8.76e-06,
2190
+ "loss": 0.1411,
2191
+ "step": 3030
2192
+ },
2193
+ {
2194
+ "epoch": 6.08,
2195
+ "grad_norm": 1.831468105316162,
2196
+ "learning_rate": 8.715555555555556e-06,
2197
+ "loss": 0.1121,
2198
+ "step": 3040
2199
+ },
2200
+ {
2201
+ "epoch": 6.1,
2202
+ "grad_norm": 38.18562698364258,
2203
+ "learning_rate": 8.671111111111113e-06,
2204
+ "loss": 0.0794,
2205
+ "step": 3050
2206
+ },
2207
+ {
2208
+ "epoch": 6.12,
2209
+ "grad_norm": 1.2553108930587769,
2210
+ "learning_rate": 8.626666666666668e-06,
2211
+ "loss": 0.203,
2212
+ "step": 3060
2213
+ },
2214
+ {
2215
+ "epoch": 6.14,
2216
+ "grad_norm": 9.61770248413086,
2217
+ "learning_rate": 8.582222222222223e-06,
2218
+ "loss": 0.3239,
2219
+ "step": 3070
2220
+ },
2221
+ {
2222
+ "epoch": 6.16,
2223
+ "grad_norm": 1.5621685981750488,
2224
+ "learning_rate": 8.537777777777779e-06,
2225
+ "loss": 0.2211,
2226
+ "step": 3080
2227
+ },
2228
+ {
2229
+ "epoch": 6.18,
2230
+ "grad_norm": 25.59503936767578,
2231
+ "learning_rate": 8.493333333333334e-06,
2232
+ "loss": 0.115,
2233
+ "step": 3090
2234
+ },
2235
+ {
2236
+ "epoch": 6.2,
2237
+ "grad_norm": 28.418777465820312,
2238
+ "learning_rate": 8.448888888888889e-06,
2239
+ "loss": 0.1769,
2240
+ "step": 3100
2241
+ },
2242
+ {
2243
+ "epoch": 6.22,
2244
+ "grad_norm": 34.33855056762695,
2245
+ "learning_rate": 8.404444444444444e-06,
2246
+ "loss": 0.1358,
2247
+ "step": 3110
2248
+ },
2249
+ {
2250
+ "epoch": 6.24,
2251
+ "grad_norm": 43.691200256347656,
2252
+ "learning_rate": 8.36e-06,
2253
+ "loss": 0.1472,
2254
+ "step": 3120
2255
+ },
2256
+ {
2257
+ "epoch": 6.26,
2258
+ "grad_norm": 10.353766441345215,
2259
+ "learning_rate": 8.315555555555557e-06,
2260
+ "loss": 0.1462,
2261
+ "step": 3130
2262
+ },
2263
+ {
2264
+ "epoch": 6.28,
2265
+ "grad_norm": 8.170977592468262,
2266
+ "learning_rate": 8.271111111111112e-06,
2267
+ "loss": 0.0777,
2268
+ "step": 3140
2269
+ },
2270
+ {
2271
+ "epoch": 6.3,
2272
+ "grad_norm": 42.743621826171875,
2273
+ "learning_rate": 8.226666666666667e-06,
2274
+ "loss": 0.252,
2275
+ "step": 3150
2276
+ },
2277
+ {
2278
+ "epoch": 6.32,
2279
+ "grad_norm": 80.68500518798828,
2280
+ "learning_rate": 8.182222222222222e-06,
2281
+ "loss": 0.292,
2282
+ "step": 3160
2283
+ },
2284
+ {
2285
+ "epoch": 6.34,
2286
+ "grad_norm": 108.81721496582031,
2287
+ "learning_rate": 8.137777777777779e-06,
2288
+ "loss": 0.1261,
2289
+ "step": 3170
2290
+ },
2291
+ {
2292
+ "epoch": 6.36,
2293
+ "grad_norm": 39.379703521728516,
2294
+ "learning_rate": 8.093333333333334e-06,
2295
+ "loss": 0.25,
2296
+ "step": 3180
2297
+ },
2298
+ {
2299
+ "epoch": 6.38,
2300
+ "grad_norm": 34.17110824584961,
2301
+ "learning_rate": 8.04888888888889e-06,
2302
+ "loss": 0.2116,
2303
+ "step": 3190
2304
+ },
2305
+ {
2306
+ "epoch": 6.4,
2307
+ "grad_norm": 2.857592821121216,
2308
+ "learning_rate": 8.004444444444445e-06,
2309
+ "loss": 0.1229,
2310
+ "step": 3200
2311
+ },
2312
+ {
2313
+ "epoch": 6.42,
2314
+ "grad_norm": 1.0677745342254639,
2315
+ "learning_rate": 7.960000000000002e-06,
2316
+ "loss": 0.1713,
2317
+ "step": 3210
2318
+ },
2319
+ {
2320
+ "epoch": 6.44,
2321
+ "grad_norm": 0.39858701825141907,
2322
+ "learning_rate": 7.915555555555557e-06,
2323
+ "loss": 0.2015,
2324
+ "step": 3220
2325
+ },
2326
+ {
2327
+ "epoch": 6.46,
2328
+ "grad_norm": 27.32733154296875,
2329
+ "learning_rate": 7.871111111111112e-06,
2330
+ "loss": 0.1897,
2331
+ "step": 3230
2332
+ },
2333
+ {
2334
+ "epoch": 6.48,
2335
+ "grad_norm": 48.61661148071289,
2336
+ "learning_rate": 7.826666666666667e-06,
2337
+ "loss": 0.2069,
2338
+ "step": 3240
2339
+ },
2340
+ {
2341
+ "epoch": 6.5,
2342
+ "grad_norm": 53.361328125,
2343
+ "learning_rate": 7.782222222222223e-06,
2344
+ "loss": 0.1455,
2345
+ "step": 3250
2346
+ },
2347
+ {
2348
+ "epoch": 6.52,
2349
+ "grad_norm": 0.15824782848358154,
2350
+ "learning_rate": 7.737777777777778e-06,
2351
+ "loss": 0.1578,
2352
+ "step": 3260
2353
+ },
2354
+ {
2355
+ "epoch": 6.54,
2356
+ "grad_norm": 59.954673767089844,
2357
+ "learning_rate": 7.693333333333333e-06,
2358
+ "loss": 0.174,
2359
+ "step": 3270
2360
+ },
2361
+ {
2362
+ "epoch": 6.5600000000000005,
2363
+ "grad_norm": 1.1697288751602173,
2364
+ "learning_rate": 7.648888888888888e-06,
2365
+ "loss": 0.1198,
2366
+ "step": 3280
2367
+ },
2368
+ {
2369
+ "epoch": 6.58,
2370
+ "grad_norm": 59.18726348876953,
2371
+ "learning_rate": 7.604444444444445e-06,
2372
+ "loss": 0.0891,
2373
+ "step": 3290
2374
+ },
2375
+ {
2376
+ "epoch": 6.6,
2377
+ "grad_norm": 58.09731674194336,
2378
+ "learning_rate": 7.5600000000000005e-06,
2379
+ "loss": 0.1809,
2380
+ "step": 3300
2381
+ },
2382
+ {
2383
+ "epoch": 6.62,
2384
+ "grad_norm": 0.837752103805542,
2385
+ "learning_rate": 7.515555555555556e-06,
2386
+ "loss": 0.2489,
2387
+ "step": 3310
2388
+ },
2389
+ {
2390
+ "epoch": 6.64,
2391
+ "grad_norm": 2.4167463779449463,
2392
+ "learning_rate": 7.471111111111111e-06,
2393
+ "loss": 0.2079,
2394
+ "step": 3320
2395
+ },
2396
+ {
2397
+ "epoch": 6.66,
2398
+ "grad_norm": 10.7720308303833,
2399
+ "learning_rate": 7.426666666666668e-06,
2400
+ "loss": 0.1214,
2401
+ "step": 3330
2402
+ },
2403
+ {
2404
+ "epoch": 6.68,
2405
+ "grad_norm": 74.92939758300781,
2406
+ "learning_rate": 7.382222222222223e-06,
2407
+ "loss": 0.1395,
2408
+ "step": 3340
2409
+ },
2410
+ {
2411
+ "epoch": 6.7,
2412
+ "grad_norm": 0.4776591658592224,
2413
+ "learning_rate": 7.337777777777778e-06,
2414
+ "loss": 0.1287,
2415
+ "step": 3350
2416
+ },
2417
+ {
2418
+ "epoch": 6.72,
2419
+ "grad_norm": 0.5460708141326904,
2420
+ "learning_rate": 7.2933333333333335e-06,
2421
+ "loss": 0.163,
2422
+ "step": 3360
2423
+ },
2424
+ {
2425
+ "epoch": 6.74,
2426
+ "grad_norm": 0.4305306375026703,
2427
+ "learning_rate": 7.24888888888889e-06,
2428
+ "loss": 0.0991,
2429
+ "step": 3370
2430
+ },
2431
+ {
2432
+ "epoch": 6.76,
2433
+ "grad_norm": 21.965621948242188,
2434
+ "learning_rate": 7.204444444444445e-06,
2435
+ "loss": 0.2176,
2436
+ "step": 3380
2437
+ },
2438
+ {
2439
+ "epoch": 6.78,
2440
+ "grad_norm": 0.736595630645752,
2441
+ "learning_rate": 7.16e-06,
2442
+ "loss": 0.1523,
2443
+ "step": 3390
2444
+ },
2445
+ {
2446
+ "epoch": 6.8,
2447
+ "grad_norm": 23.835643768310547,
2448
+ "learning_rate": 7.115555555555557e-06,
2449
+ "loss": 0.1585,
2450
+ "step": 3400
2451
+ },
2452
+ {
2453
+ "epoch": 6.82,
2454
+ "grad_norm": 35.66933822631836,
2455
+ "learning_rate": 7.071111111111112e-06,
2456
+ "loss": 0.2627,
2457
+ "step": 3410
2458
+ },
2459
+ {
2460
+ "epoch": 6.84,
2461
+ "grad_norm": 20.828683853149414,
2462
+ "learning_rate": 7.0266666666666674e-06,
2463
+ "loss": 0.1281,
2464
+ "step": 3420
2465
+ },
2466
+ {
2467
+ "epoch": 6.86,
2468
+ "grad_norm": 53.80686569213867,
2469
+ "learning_rate": 6.982222222222223e-06,
2470
+ "loss": 0.1855,
2471
+ "step": 3430
2472
+ },
2473
+ {
2474
+ "epoch": 6.88,
2475
+ "grad_norm": 1.1889008283615112,
2476
+ "learning_rate": 6.937777777777779e-06,
2477
+ "loss": 0.1437,
2478
+ "step": 3440
2479
+ },
2480
+ {
2481
+ "epoch": 6.9,
2482
+ "grad_norm": 39.365570068359375,
2483
+ "learning_rate": 6.893333333333334e-06,
2484
+ "loss": 0.153,
2485
+ "step": 3450
2486
+ },
2487
+ {
2488
+ "epoch": 6.92,
2489
+ "grad_norm": 1.9427231550216675,
2490
+ "learning_rate": 6.848888888888889e-06,
2491
+ "loss": 0.1347,
2492
+ "step": 3460
2493
+ },
2494
+ {
2495
+ "epoch": 6.9399999999999995,
2496
+ "grad_norm": 17.797195434570312,
2497
+ "learning_rate": 6.8044444444444444e-06,
2498
+ "loss": 0.0994,
2499
+ "step": 3470
2500
+ },
2501
+ {
2502
+ "epoch": 6.96,
2503
+ "grad_norm": 52.424381256103516,
2504
+ "learning_rate": 6.760000000000001e-06,
2505
+ "loss": 0.1681,
2506
+ "step": 3480
2507
+ },
2508
+ {
2509
+ "epoch": 6.98,
2510
+ "grad_norm": 3.8772993087768555,
2511
+ "learning_rate": 6.7155555555555566e-06,
2512
+ "loss": 0.1227,
2513
+ "step": 3490
2514
+ },
2515
+ {
2516
+ "epoch": 7.0,
2517
+ "grad_norm": 0.16324415802955627,
2518
+ "learning_rate": 6.671111111111112e-06,
2519
+ "loss": 0.1565,
2520
+ "step": 3500
2521
+ },
2522
+ {
2523
+ "epoch": 7.0,
2524
+ "eval_accuracy": 0.959,
2525
+ "eval_f1": 0.9589907729239078,
2526
+ "eval_loss": 0.17112991213798523,
2527
+ "eval_runtime": 29.8762,
2528
+ "eval_samples_per_second": 33.471,
2529
+ "eval_steps_per_second": 8.368,
2530
+ "step": 3500
2531
+ },
2532
+ {
2533
+ "epoch": 7.02,
2534
+ "grad_norm": 0.866874098777771,
2535
+ "learning_rate": 6.626666666666667e-06,
2536
+ "loss": 0.019,
2537
+ "step": 3510
2538
+ },
2539
+ {
2540
+ "epoch": 7.04,
2541
+ "grad_norm": 35.4227180480957,
2542
+ "learning_rate": 6.582222222222223e-06,
2543
+ "loss": 0.1376,
2544
+ "step": 3520
2545
+ },
2546
+ {
2547
+ "epoch": 7.06,
2548
+ "grad_norm": 1.054971694946289,
2549
+ "learning_rate": 6.537777777777778e-06,
2550
+ "loss": 0.1154,
2551
+ "step": 3530
2552
+ },
2553
+ {
2554
+ "epoch": 7.08,
2555
+ "grad_norm": 1.367079734802246,
2556
+ "learning_rate": 6.4933333333333336e-06,
2557
+ "loss": 0.0636,
2558
+ "step": 3540
2559
+ },
2560
+ {
2561
+ "epoch": 7.1,
2562
+ "grad_norm": 22.1802921295166,
2563
+ "learning_rate": 6.448888888888889e-06,
2564
+ "loss": 0.147,
2565
+ "step": 3550
2566
+ },
2567
+ {
2568
+ "epoch": 7.12,
2569
+ "grad_norm": 7.452566623687744,
2570
+ "learning_rate": 6.404444444444446e-06,
2571
+ "loss": 0.1637,
2572
+ "step": 3560
2573
+ },
2574
+ {
2575
+ "epoch": 7.14,
2576
+ "grad_norm": 87.71952819824219,
2577
+ "learning_rate": 6.360000000000001e-06,
2578
+ "loss": 0.2367,
2579
+ "step": 3570
2580
+ },
2581
+ {
2582
+ "epoch": 7.16,
2583
+ "grad_norm": 0.8802708983421326,
2584
+ "learning_rate": 6.315555555555556e-06,
2585
+ "loss": 0.2066,
2586
+ "step": 3580
2587
+ },
2588
+ {
2589
+ "epoch": 7.18,
2590
+ "grad_norm": 57.91831970214844,
2591
+ "learning_rate": 6.271111111111111e-06,
2592
+ "loss": 0.1138,
2593
+ "step": 3590
2594
+ },
2595
+ {
2596
+ "epoch": 7.2,
2597
+ "grad_norm": 0.17994236946105957,
2598
+ "learning_rate": 6.2266666666666675e-06,
2599
+ "loss": 0.1032,
2600
+ "step": 3600
2601
+ },
2602
+ {
2603
+ "epoch": 7.22,
2604
+ "grad_norm": 62.987220764160156,
2605
+ "learning_rate": 6.182222222222223e-06,
2606
+ "loss": 0.2298,
2607
+ "step": 3610
2608
+ },
2609
+ {
2610
+ "epoch": 7.24,
2611
+ "grad_norm": 0.17092110216617584,
2612
+ "learning_rate": 6.137777777777778e-06,
2613
+ "loss": 0.0343,
2614
+ "step": 3620
2615
+ },
2616
+ {
2617
+ "epoch": 7.26,
2618
+ "grad_norm": 51.10432434082031,
2619
+ "learning_rate": 6.093333333333333e-06,
2620
+ "loss": 0.2606,
2621
+ "step": 3630
2622
+ },
2623
+ {
2624
+ "epoch": 7.28,
2625
+ "grad_norm": 0.3049199879169464,
2626
+ "learning_rate": 6.04888888888889e-06,
2627
+ "loss": 0.0951,
2628
+ "step": 3640
2629
+ },
2630
+ {
2631
+ "epoch": 7.3,
2632
+ "grad_norm": 28.356595993041992,
2633
+ "learning_rate": 6.004444444444445e-06,
2634
+ "loss": 0.0612,
2635
+ "step": 3650
2636
+ },
2637
+ {
2638
+ "epoch": 7.32,
2639
+ "grad_norm": 39.8951530456543,
2640
+ "learning_rate": 5.9600000000000005e-06,
2641
+ "loss": 0.0771,
2642
+ "step": 3660
2643
+ },
2644
+ {
2645
+ "epoch": 7.34,
2646
+ "grad_norm": 0.29495635628700256,
2647
+ "learning_rate": 5.915555555555556e-06,
2648
+ "loss": 0.2043,
2649
+ "step": 3670
2650
+ },
2651
+ {
2652
+ "epoch": 7.36,
2653
+ "grad_norm": 0.1068890392780304,
2654
+ "learning_rate": 5.871111111111112e-06,
2655
+ "loss": 0.0756,
2656
+ "step": 3680
2657
+ },
2658
+ {
2659
+ "epoch": 7.38,
2660
+ "grad_norm": 29.413293838500977,
2661
+ "learning_rate": 5.826666666666667e-06,
2662
+ "loss": 0.1675,
2663
+ "step": 3690
2664
+ },
2665
+ {
2666
+ "epoch": 7.4,
2667
+ "grad_norm": 2.586345672607422,
2668
+ "learning_rate": 5.782222222222222e-06,
2669
+ "loss": 0.0393,
2670
+ "step": 3700
2671
+ },
2672
+ {
2673
+ "epoch": 7.42,
2674
+ "grad_norm": 0.21115149557590485,
2675
+ "learning_rate": 5.737777777777778e-06,
2676
+ "loss": 0.113,
2677
+ "step": 3710
2678
+ },
2679
+ {
2680
+ "epoch": 7.44,
2681
+ "grad_norm": 47.780696868896484,
2682
+ "learning_rate": 5.6933333333333344e-06,
2683
+ "loss": 0.3325,
2684
+ "step": 3720
2685
+ },
2686
+ {
2687
+ "epoch": 7.46,
2688
+ "grad_norm": 66.45282745361328,
2689
+ "learning_rate": 5.64888888888889e-06,
2690
+ "loss": 0.2392,
2691
+ "step": 3730
2692
+ },
2693
+ {
2694
+ "epoch": 7.48,
2695
+ "grad_norm": 0.3497669994831085,
2696
+ "learning_rate": 5.604444444444445e-06,
2697
+ "loss": 0.2605,
2698
+ "step": 3740
2699
+ },
2700
+ {
2701
+ "epoch": 7.5,
2702
+ "grad_norm": 0.4804977476596832,
2703
+ "learning_rate": 5.560000000000001e-06,
2704
+ "loss": 0.1999,
2705
+ "step": 3750
2706
+ },
2707
+ {
2708
+ "epoch": 7.52,
2709
+ "grad_norm": 22.24820327758789,
2710
+ "learning_rate": 5.515555555555556e-06,
2711
+ "loss": 0.1304,
2712
+ "step": 3760
2713
+ },
2714
+ {
2715
+ "epoch": 7.54,
2716
+ "grad_norm": 0.09687723219394684,
2717
+ "learning_rate": 5.4711111111111114e-06,
2718
+ "loss": 0.1099,
2719
+ "step": 3770
2720
+ },
2721
+ {
2722
+ "epoch": 7.5600000000000005,
2723
+ "grad_norm": 1.2416237592697144,
2724
+ "learning_rate": 5.426666666666667e-06,
2725
+ "loss": 0.1038,
2726
+ "step": 3780
2727
+ },
2728
+ {
2729
+ "epoch": 7.58,
2730
+ "grad_norm": 0.9942197203636169,
2731
+ "learning_rate": 5.382222222222223e-06,
2732
+ "loss": 0.075,
2733
+ "step": 3790
2734
+ },
2735
+ {
2736
+ "epoch": 7.6,
2737
+ "grad_norm": 66.31744384765625,
2738
+ "learning_rate": 5.337777777777779e-06,
2739
+ "loss": 0.1353,
2740
+ "step": 3800
2741
+ },
2742
+ {
2743
+ "epoch": 7.62,
2744
+ "grad_norm": 21.072839736938477,
2745
+ "learning_rate": 5.293333333333334e-06,
2746
+ "loss": 0.203,
2747
+ "step": 3810
2748
+ },
2749
+ {
2750
+ "epoch": 7.64,
2751
+ "grad_norm": 0.1997714638710022,
2752
+ "learning_rate": 5.248888888888889e-06,
2753
+ "loss": 0.1,
2754
+ "step": 3820
2755
+ },
2756
+ {
2757
+ "epoch": 7.66,
2758
+ "grad_norm": 46.1370964050293,
2759
+ "learning_rate": 5.204444444444445e-06,
2760
+ "loss": 0.2247,
2761
+ "step": 3830
2762
+ },
2763
+ {
2764
+ "epoch": 7.68,
2765
+ "grad_norm": 35.55413818359375,
2766
+ "learning_rate": 5.1600000000000006e-06,
2767
+ "loss": 0.0401,
2768
+ "step": 3840
2769
+ },
2770
+ {
2771
+ "epoch": 7.7,
2772
+ "grad_norm": 23.48533058166504,
2773
+ "learning_rate": 5.115555555555556e-06,
2774
+ "loss": 0.154,
2775
+ "step": 3850
2776
+ },
2777
+ {
2778
+ "epoch": 7.72,
2779
+ "grad_norm": 7.268435955047607,
2780
+ "learning_rate": 5.071111111111111e-06,
2781
+ "loss": 0.1893,
2782
+ "step": 3860
2783
+ },
2784
+ {
2785
+ "epoch": 7.74,
2786
+ "grad_norm": 37.561344146728516,
2787
+ "learning_rate": 5.026666666666667e-06,
2788
+ "loss": 0.1987,
2789
+ "step": 3870
2790
+ },
2791
+ {
2792
+ "epoch": 7.76,
2793
+ "grad_norm": 5.8413472175598145,
2794
+ "learning_rate": 4.982222222222222e-06,
2795
+ "loss": 0.0719,
2796
+ "step": 3880
2797
+ },
2798
+ {
2799
+ "epoch": 7.78,
2800
+ "grad_norm": 0.07487470656633377,
2801
+ "learning_rate": 4.937777777777778e-06,
2802
+ "loss": 0.1466,
2803
+ "step": 3890
2804
+ },
2805
+ {
2806
+ "epoch": 7.8,
2807
+ "grad_norm": 0.5352247357368469,
2808
+ "learning_rate": 4.893333333333334e-06,
2809
+ "loss": 0.079,
2810
+ "step": 3900
2811
+ },
2812
+ {
2813
+ "epoch": 7.82,
2814
+ "grad_norm": 35.49664306640625,
2815
+ "learning_rate": 4.848888888888889e-06,
2816
+ "loss": 0.1556,
2817
+ "step": 3910
2818
+ },
2819
+ {
2820
+ "epoch": 7.84,
2821
+ "grad_norm": 5.635743618011475,
2822
+ "learning_rate": 4.804444444444445e-06,
2823
+ "loss": 0.1102,
2824
+ "step": 3920
2825
+ },
2826
+ {
2827
+ "epoch": 7.86,
2828
+ "grad_norm": 12.11729621887207,
2829
+ "learning_rate": 4.76e-06,
2830
+ "loss": 0.1208,
2831
+ "step": 3930
2832
+ },
2833
+ {
2834
+ "epoch": 7.88,
2835
+ "grad_norm": 47.529354095458984,
2836
+ "learning_rate": 4.715555555555556e-06,
2837
+ "loss": 0.1257,
2838
+ "step": 3940
2839
+ },
2840
+ {
2841
+ "epoch": 7.9,
2842
+ "grad_norm": 20.554182052612305,
2843
+ "learning_rate": 4.6711111111111115e-06,
2844
+ "loss": 0.1649,
2845
+ "step": 3950
2846
+ },
2847
+ {
2848
+ "epoch": 7.92,
2849
+ "grad_norm": 11.702116012573242,
2850
+ "learning_rate": 4.626666666666667e-06,
2851
+ "loss": 0.0993,
2852
+ "step": 3960
2853
+ },
2854
+ {
2855
+ "epoch": 7.9399999999999995,
2856
+ "grad_norm": 68.36510467529297,
2857
+ "learning_rate": 4.582222222222223e-06,
2858
+ "loss": 0.1994,
2859
+ "step": 3970
2860
+ },
2861
+ {
2862
+ "epoch": 7.96,
2863
+ "grad_norm": 15.124364852905273,
2864
+ "learning_rate": 4.537777777777778e-06,
2865
+ "loss": 0.0979,
2866
+ "step": 3980
2867
+ },
2868
+ {
2869
+ "epoch": 7.98,
2870
+ "grad_norm": 1.221453309059143,
2871
+ "learning_rate": 4.493333333333333e-06,
2872
+ "loss": 0.1269,
2873
+ "step": 3990
2874
+ },
2875
+ {
2876
+ "epoch": 8.0,
2877
+ "grad_norm": 103.6293716430664,
2878
+ "learning_rate": 4.448888888888889e-06,
2879
+ "loss": 0.1881,
2880
+ "step": 4000
2881
+ },
2882
+ {
2883
+ "epoch": 8.0,
2884
+ "eval_accuracy": 0.967,
2885
+ "eval_f1": 0.9669960065167886,
2886
+ "eval_loss": 0.12350235879421234,
2887
+ "eval_runtime": 29.5878,
2888
+ "eval_samples_per_second": 33.798,
2889
+ "eval_steps_per_second": 8.449,
2890
+ "step": 4000
2891
+ },
2892
+ {
2893
+ "epoch": 8.02,
2894
+ "grad_norm": 0.3875817656517029,
2895
+ "learning_rate": 4.404444444444445e-06,
2896
+ "loss": 0.1835,
2897
+ "step": 4010
2898
+ },
2899
+ {
2900
+ "epoch": 8.04,
2901
+ "grad_norm": 51.069122314453125,
2902
+ "learning_rate": 4.360000000000001e-06,
2903
+ "loss": 0.0977,
2904
+ "step": 4020
2905
+ },
2906
+ {
2907
+ "epoch": 8.06,
2908
+ "grad_norm": 45.71088409423828,
2909
+ "learning_rate": 4.315555555555556e-06,
2910
+ "loss": 0.0969,
2911
+ "step": 4030
2912
+ },
2913
+ {
2914
+ "epoch": 8.08,
2915
+ "grad_norm": 1.5568656921386719,
2916
+ "learning_rate": 4.271111111111111e-06,
2917
+ "loss": 0.1444,
2918
+ "step": 4040
2919
+ },
2920
+ {
2921
+ "epoch": 8.1,
2922
+ "grad_norm": 53.638145446777344,
2923
+ "learning_rate": 4.226666666666667e-06,
2924
+ "loss": 0.1277,
2925
+ "step": 4050
2926
+ },
2927
+ {
2928
+ "epoch": 8.12,
2929
+ "grad_norm": 79.60730743408203,
2930
+ "learning_rate": 4.182222222222222e-06,
2931
+ "loss": 0.0787,
2932
+ "step": 4060
2933
+ },
2934
+ {
2935
+ "epoch": 8.14,
2936
+ "grad_norm": 100.98887634277344,
2937
+ "learning_rate": 4.1377777777777784e-06,
2938
+ "loss": 0.0618,
2939
+ "step": 4070
2940
+ },
2941
+ {
2942
+ "epoch": 8.16,
2943
+ "grad_norm": 3.1758804321289062,
2944
+ "learning_rate": 4.093333333333334e-06,
2945
+ "loss": 0.1582,
2946
+ "step": 4080
2947
+ },
2948
+ {
2949
+ "epoch": 8.18,
2950
+ "grad_norm": 61.05792999267578,
2951
+ "learning_rate": 4.04888888888889e-06,
2952
+ "loss": 0.1693,
2953
+ "step": 4090
2954
+ },
2955
+ {
2956
+ "epoch": 8.2,
2957
+ "grad_norm": 7.7754411697387695,
2958
+ "learning_rate": 4.004444444444445e-06,
2959
+ "loss": 0.0559,
2960
+ "step": 4100
2961
+ },
2962
+ {
2963
+ "epoch": 8.22,
2964
+ "grad_norm": 0.27157849073410034,
2965
+ "learning_rate": 3.96e-06,
2966
+ "loss": 0.0544,
2967
+ "step": 4110
2968
+ },
2969
+ {
2970
+ "epoch": 8.24,
2971
+ "grad_norm": 0.15695291757583618,
2972
+ "learning_rate": 3.9155555555555554e-06,
2973
+ "loss": 0.1494,
2974
+ "step": 4120
2975
+ },
2976
+ {
2977
+ "epoch": 8.26,
2978
+ "grad_norm": 7.551505088806152,
2979
+ "learning_rate": 3.8711111111111115e-06,
2980
+ "loss": 0.1293,
2981
+ "step": 4130
2982
+ },
2983
+ {
2984
+ "epoch": 8.28,
2985
+ "grad_norm": 21.379234313964844,
2986
+ "learning_rate": 3.826666666666667e-06,
2987
+ "loss": 0.2044,
2988
+ "step": 4140
2989
+ },
2990
+ {
2991
+ "epoch": 8.3,
2992
+ "grad_norm": 86.73981475830078,
2993
+ "learning_rate": 3.782222222222223e-06,
2994
+ "loss": 0.1159,
2995
+ "step": 4150
2996
+ },
2997
+ {
2998
+ "epoch": 8.32,
2999
+ "grad_norm": 42.80865478515625,
3000
+ "learning_rate": 3.737777777777778e-06,
3001
+ "loss": 0.0973,
3002
+ "step": 4160
3003
+ },
3004
+ {
3005
+ "epoch": 8.34,
3006
+ "grad_norm": 0.0745624527335167,
3007
+ "learning_rate": 3.6933333333333337e-06,
3008
+ "loss": 0.0949,
3009
+ "step": 4170
3010
+ },
3011
+ {
3012
+ "epoch": 8.36,
3013
+ "grad_norm": 11.920341491699219,
3014
+ "learning_rate": 3.648888888888889e-06,
3015
+ "loss": 0.0996,
3016
+ "step": 4180
3017
+ },
3018
+ {
3019
+ "epoch": 8.38,
3020
+ "grad_norm": 78.22136688232422,
3021
+ "learning_rate": 3.604444444444445e-06,
3022
+ "loss": 0.0934,
3023
+ "step": 4190
3024
+ },
3025
+ {
3026
+ "epoch": 8.4,
3027
+ "grad_norm": 65.28237915039062,
3028
+ "learning_rate": 3.5600000000000002e-06,
3029
+ "loss": 0.1958,
3030
+ "step": 4200
3031
+ },
3032
+ {
3033
+ "epoch": 8.42,
3034
+ "grad_norm": 54.60852813720703,
3035
+ "learning_rate": 3.515555555555556e-06,
3036
+ "loss": 0.1692,
3037
+ "step": 4210
3038
+ },
3039
+ {
3040
+ "epoch": 8.44,
3041
+ "grad_norm": 2.114381790161133,
3042
+ "learning_rate": 3.471111111111111e-06,
3043
+ "loss": 0.0821,
3044
+ "step": 4220
3045
+ },
3046
+ {
3047
+ "epoch": 8.46,
3048
+ "grad_norm": 25.072402954101562,
3049
+ "learning_rate": 3.426666666666667e-06,
3050
+ "loss": 0.1296,
3051
+ "step": 4230
3052
+ },
3053
+ {
3054
+ "epoch": 8.48,
3055
+ "grad_norm": 18.160749435424805,
3056
+ "learning_rate": 3.3822222222222224e-06,
3057
+ "loss": 0.1255,
3058
+ "step": 4240
3059
+ },
3060
+ {
3061
+ "epoch": 8.5,
3062
+ "grad_norm": 20.003116607666016,
3063
+ "learning_rate": 3.337777777777778e-06,
3064
+ "loss": 0.1651,
3065
+ "step": 4250
3066
+ },
3067
+ {
3068
+ "epoch": 8.52,
3069
+ "grad_norm": 0.14867937564849854,
3070
+ "learning_rate": 3.2933333333333333e-06,
3071
+ "loss": 0.208,
3072
+ "step": 4260
3073
+ },
3074
+ {
3075
+ "epoch": 8.54,
3076
+ "grad_norm": 91.67085266113281,
3077
+ "learning_rate": 3.2488888888888894e-06,
3078
+ "loss": 0.111,
3079
+ "step": 4270
3080
+ },
3081
+ {
3082
+ "epoch": 8.56,
3083
+ "grad_norm": 2.912222146987915,
3084
+ "learning_rate": 3.2044444444444446e-06,
3085
+ "loss": 0.1613,
3086
+ "step": 4280
3087
+ },
3088
+ {
3089
+ "epoch": 8.58,
3090
+ "grad_norm": 2.1938443183898926,
3091
+ "learning_rate": 3.1600000000000002e-06,
3092
+ "loss": 0.0141,
3093
+ "step": 4290
3094
+ },
3095
+ {
3096
+ "epoch": 8.6,
3097
+ "grad_norm": 0.3065066337585449,
3098
+ "learning_rate": 3.1155555555555555e-06,
3099
+ "loss": 0.169,
3100
+ "step": 4300
3101
+ },
3102
+ {
3103
+ "epoch": 8.62,
3104
+ "grad_norm": 4.207890033721924,
3105
+ "learning_rate": 3.0711111111111115e-06,
3106
+ "loss": 0.2474,
3107
+ "step": 4310
3108
+ },
3109
+ {
3110
+ "epoch": 8.64,
3111
+ "grad_norm": 51.59755325317383,
3112
+ "learning_rate": 3.0266666666666668e-06,
3113
+ "loss": 0.046,
3114
+ "step": 4320
3115
+ },
3116
+ {
3117
+ "epoch": 8.66,
3118
+ "grad_norm": 0.04757159575819969,
3119
+ "learning_rate": 2.9822222222222224e-06,
3120
+ "loss": 0.1281,
3121
+ "step": 4330
3122
+ },
3123
+ {
3124
+ "epoch": 8.68,
3125
+ "grad_norm": 34.88485336303711,
3126
+ "learning_rate": 2.937777777777778e-06,
3127
+ "loss": 0.0877,
3128
+ "step": 4340
3129
+ },
3130
+ {
3131
+ "epoch": 8.7,
3132
+ "grad_norm": 6.012506008148193,
3133
+ "learning_rate": 2.8933333333333337e-06,
3134
+ "loss": 0.0846,
3135
+ "step": 4350
3136
+ },
3137
+ {
3138
+ "epoch": 8.72,
3139
+ "grad_norm": 36.26422882080078,
3140
+ "learning_rate": 2.8488888888888894e-06,
3141
+ "loss": 0.1498,
3142
+ "step": 4360
3143
+ },
3144
+ {
3145
+ "epoch": 8.74,
3146
+ "grad_norm": 1.2710256576538086,
3147
+ "learning_rate": 2.8044444444444446e-06,
3148
+ "loss": 0.045,
3149
+ "step": 4370
3150
+ },
3151
+ {
3152
+ "epoch": 8.76,
3153
+ "grad_norm": 0.03293222188949585,
3154
+ "learning_rate": 2.7600000000000003e-06,
3155
+ "loss": 0.1067,
3156
+ "step": 4380
3157
+ },
3158
+ {
3159
+ "epoch": 8.78,
3160
+ "grad_norm": 0.47017401456832886,
3161
+ "learning_rate": 2.715555555555556e-06,
3162
+ "loss": 0.0884,
3163
+ "step": 4390
3164
+ },
3165
+ {
3166
+ "epoch": 8.8,
3167
+ "grad_norm": 20.441036224365234,
3168
+ "learning_rate": 2.6711111111111116e-06,
3169
+ "loss": 0.0771,
3170
+ "step": 4400
3171
+ },
3172
+ {
3173
+ "epoch": 8.82,
3174
+ "grad_norm": 23.539817810058594,
3175
+ "learning_rate": 2.6266666666666668e-06,
3176
+ "loss": 0.0846,
3177
+ "step": 4410
3178
+ },
3179
+ {
3180
+ "epoch": 8.84,
3181
+ "grad_norm": 0.06726299226284027,
3182
+ "learning_rate": 2.5822222222222224e-06,
3183
+ "loss": 0.1387,
3184
+ "step": 4420
3185
+ },
3186
+ {
3187
+ "epoch": 8.86,
3188
+ "grad_norm": 0.05079438164830208,
3189
+ "learning_rate": 2.537777777777778e-06,
3190
+ "loss": 0.0577,
3191
+ "step": 4430
3192
+ },
3193
+ {
3194
+ "epoch": 8.88,
3195
+ "grad_norm": 0.08781124651432037,
3196
+ "learning_rate": 2.4933333333333333e-06,
3197
+ "loss": 0.1369,
3198
+ "step": 4440
3199
+ },
3200
+ {
3201
+ "epoch": 8.9,
3202
+ "grad_norm": 56.87919235229492,
3203
+ "learning_rate": 2.448888888888889e-06,
3204
+ "loss": 0.2156,
3205
+ "step": 4450
3206
+ },
3207
+ {
3208
+ "epoch": 8.92,
3209
+ "grad_norm": 18.126462936401367,
3210
+ "learning_rate": 2.4044444444444446e-06,
3211
+ "loss": 0.1872,
3212
+ "step": 4460
3213
+ },
3214
+ {
3215
+ "epoch": 8.94,
3216
+ "grad_norm": 24.375865936279297,
3217
+ "learning_rate": 2.3600000000000003e-06,
3218
+ "loss": 0.0346,
3219
+ "step": 4470
3220
+ },
3221
+ {
3222
+ "epoch": 8.96,
3223
+ "grad_norm": 69.61532592773438,
3224
+ "learning_rate": 2.3155555555555555e-06,
3225
+ "loss": 0.1092,
3226
+ "step": 4480
3227
+ },
3228
+ {
3229
+ "epoch": 8.98,
3230
+ "grad_norm": 13.114588737487793,
3231
+ "learning_rate": 2.2711111111111116e-06,
3232
+ "loss": 0.1841,
3233
+ "step": 4490
3234
+ },
3235
+ {
3236
+ "epoch": 9.0,
3237
+ "grad_norm": 31.159509658813477,
3238
+ "learning_rate": 2.226666666666667e-06,
3239
+ "loss": 0.139,
3240
+ "step": 4500
3241
+ },
3242
+ {
3243
+ "epoch": 9.0,
3244
+ "eval_accuracy": 0.97,
3245
+ "eval_f1": 0.969994118847294,
3246
+ "eval_loss": 0.12846139073371887,
3247
+ "eval_runtime": 29.7029,
3248
+ "eval_samples_per_second": 33.667,
3249
+ "eval_steps_per_second": 8.417,
3250
+ "step": 4500
3251
+ },
3252
+ {
3253
+ "epoch": 9.02,
3254
+ "grad_norm": 25.66990089416504,
3255
+ "learning_rate": 2.1822222222222225e-06,
3256
+ "loss": 0.118,
3257
+ "step": 4510
3258
+ },
3259
+ {
3260
+ "epoch": 9.04,
3261
+ "grad_norm": 10.993003845214844,
3262
+ "learning_rate": 2.137777777777778e-06,
3263
+ "loss": 0.1098,
3264
+ "step": 4520
3265
+ },
3266
+ {
3267
+ "epoch": 9.06,
3268
+ "grad_norm": 0.87308669090271,
3269
+ "learning_rate": 2.0933333333333338e-06,
3270
+ "loss": 0.1868,
3271
+ "step": 4530
3272
+ },
3273
+ {
3274
+ "epoch": 9.08,
3275
+ "grad_norm": 13.464713096618652,
3276
+ "learning_rate": 2.048888888888889e-06,
3277
+ "loss": 0.0755,
3278
+ "step": 4540
3279
+ },
3280
+ {
3281
+ "epoch": 9.1,
3282
+ "grad_norm": 0.20688655972480774,
3283
+ "learning_rate": 2.0044444444444446e-06,
3284
+ "loss": 0.0813,
3285
+ "step": 4550
3286
+ },
3287
+ {
3288
+ "epoch": 9.12,
3289
+ "grad_norm": 25.900611877441406,
3290
+ "learning_rate": 1.9600000000000003e-06,
3291
+ "loss": 0.1827,
3292
+ "step": 4560
3293
+ },
3294
+ {
3295
+ "epoch": 9.14,
3296
+ "grad_norm": 0.21062885224819183,
3297
+ "learning_rate": 1.915555555555556e-06,
3298
+ "loss": 0.0139,
3299
+ "step": 4570
3300
+ },
3301
+ {
3302
+ "epoch": 9.16,
3303
+ "grad_norm": 67.11091613769531,
3304
+ "learning_rate": 1.8711111111111114e-06,
3305
+ "loss": 0.1348,
3306
+ "step": 4580
3307
+ },
3308
+ {
3309
+ "epoch": 9.18,
3310
+ "grad_norm": 83.04378509521484,
3311
+ "learning_rate": 1.8266666666666668e-06,
3312
+ "loss": 0.135,
3313
+ "step": 4590
3314
+ },
3315
+ {
3316
+ "epoch": 9.2,
3317
+ "grad_norm": 0.1811710000038147,
3318
+ "learning_rate": 1.7822222222222225e-06,
3319
+ "loss": 0.0867,
3320
+ "step": 4600
3321
+ },
3322
+ {
3323
+ "epoch": 9.22,
3324
+ "grad_norm": 23.66283416748047,
3325
+ "learning_rate": 1.737777777777778e-06,
3326
+ "loss": 0.0271,
3327
+ "step": 4610
3328
+ },
3329
+ {
3330
+ "epoch": 9.24,
3331
+ "grad_norm": 0.35605868697166443,
3332
+ "learning_rate": 1.6933333333333336e-06,
3333
+ "loss": 0.1306,
3334
+ "step": 4620
3335
+ },
3336
+ {
3337
+ "epoch": 9.26,
3338
+ "grad_norm": 40.88669204711914,
3339
+ "learning_rate": 1.648888888888889e-06,
3340
+ "loss": 0.0737,
3341
+ "step": 4630
3342
+ },
3343
+ {
3344
+ "epoch": 9.28,
3345
+ "grad_norm": 68.24829864501953,
3346
+ "learning_rate": 1.6044444444444447e-06,
3347
+ "loss": 0.1555,
3348
+ "step": 4640
3349
+ },
3350
+ {
3351
+ "epoch": 9.3,
3352
+ "grad_norm": 14.719999313354492,
3353
+ "learning_rate": 1.56e-06,
3354
+ "loss": 0.1522,
3355
+ "step": 4650
3356
+ },
3357
+ {
3358
+ "epoch": 9.32,
3359
+ "grad_norm": 19.75457763671875,
3360
+ "learning_rate": 1.5155555555555558e-06,
3361
+ "loss": 0.163,
3362
+ "step": 4660
3363
+ },
3364
+ {
3365
+ "epoch": 9.34,
3366
+ "grad_norm": 15.556002616882324,
3367
+ "learning_rate": 1.4711111111111112e-06,
3368
+ "loss": 0.1224,
3369
+ "step": 4670
3370
+ },
3371
+ {
3372
+ "epoch": 9.36,
3373
+ "grad_norm": 30.64409637451172,
3374
+ "learning_rate": 1.4266666666666668e-06,
3375
+ "loss": 0.0947,
3376
+ "step": 4680
3377
+ },
3378
+ {
3379
+ "epoch": 9.38,
3380
+ "grad_norm": 11.499493598937988,
3381
+ "learning_rate": 1.3822222222222223e-06,
3382
+ "loss": 0.0958,
3383
+ "step": 4690
3384
+ },
3385
+ {
3386
+ "epoch": 9.4,
3387
+ "grad_norm": 4.182243824005127,
3388
+ "learning_rate": 1.337777777777778e-06,
3389
+ "loss": 0.0625,
3390
+ "step": 4700
3391
+ },
3392
+ {
3393
+ "epoch": 9.42,
3394
+ "grad_norm": 44.350067138671875,
3395
+ "learning_rate": 1.2933333333333334e-06,
3396
+ "loss": 0.0294,
3397
+ "step": 4710
3398
+ },
3399
+ {
3400
+ "epoch": 9.44,
3401
+ "grad_norm": 0.22355295717716217,
3402
+ "learning_rate": 1.248888888888889e-06,
3403
+ "loss": 0.0963,
3404
+ "step": 4720
3405
+ },
3406
+ {
3407
+ "epoch": 9.46,
3408
+ "grad_norm": 78.0512924194336,
3409
+ "learning_rate": 1.2044444444444447e-06,
3410
+ "loss": 0.1095,
3411
+ "step": 4730
3412
+ },
3413
+ {
3414
+ "epoch": 9.48,
3415
+ "grad_norm": 1.253760814666748,
3416
+ "learning_rate": 1.1600000000000001e-06,
3417
+ "loss": 0.0608,
3418
+ "step": 4740
3419
+ },
3420
+ {
3421
+ "epoch": 9.5,
3422
+ "grad_norm": 0.4168996214866638,
3423
+ "learning_rate": 1.1155555555555558e-06,
3424
+ "loss": 0.1447,
3425
+ "step": 4750
3426
+ },
3427
+ {
3428
+ "epoch": 9.52,
3429
+ "grad_norm": 0.05198168754577637,
3430
+ "learning_rate": 1.0711111111111112e-06,
3431
+ "loss": 0.1202,
3432
+ "step": 4760
3433
+ },
3434
+ {
3435
+ "epoch": 9.54,
3436
+ "grad_norm": 0.6518151164054871,
3437
+ "learning_rate": 1.0266666666666669e-06,
3438
+ "loss": 0.0075,
3439
+ "step": 4770
3440
+ },
3441
+ {
3442
+ "epoch": 9.56,
3443
+ "grad_norm": 2.297285556793213,
3444
+ "learning_rate": 9.822222222222223e-07,
3445
+ "loss": 0.0957,
3446
+ "step": 4780
3447
+ },
3448
+ {
3449
+ "epoch": 9.58,
3450
+ "grad_norm": 0.08275588601827621,
3451
+ "learning_rate": 9.377777777777778e-07,
3452
+ "loss": 0.08,
3453
+ "step": 4790
3454
+ },
3455
+ {
3456
+ "epoch": 9.6,
3457
+ "grad_norm": 0.18953287601470947,
3458
+ "learning_rate": 8.933333333333334e-07,
3459
+ "loss": 0.0782,
3460
+ "step": 4800
3461
+ },
3462
+ {
3463
+ "epoch": 9.62,
3464
+ "grad_norm": 0.14593170583248138,
3465
+ "learning_rate": 8.488888888888889e-07,
3466
+ "loss": 0.0035,
3467
+ "step": 4810
3468
+ },
3469
+ {
3470
+ "epoch": 9.64,
3471
+ "grad_norm": 0.30981409549713135,
3472
+ "learning_rate": 8.044444444444445e-07,
3473
+ "loss": 0.0539,
3474
+ "step": 4820
3475
+ },
3476
+ {
3477
+ "epoch": 9.66,
3478
+ "grad_norm": 23.343172073364258,
3479
+ "learning_rate": 7.6e-07,
3480
+ "loss": 0.1418,
3481
+ "step": 4830
3482
+ },
3483
+ {
3484
+ "epoch": 9.68,
3485
+ "grad_norm": 84.37653350830078,
3486
+ "learning_rate": 7.155555555555556e-07,
3487
+ "loss": 0.1802,
3488
+ "step": 4840
3489
+ },
3490
+ {
3491
+ "epoch": 9.7,
3492
+ "grad_norm": 1.447250485420227,
3493
+ "learning_rate": 6.711111111111111e-07,
3494
+ "loss": 0.0904,
3495
+ "step": 4850
3496
+ },
3497
+ {
3498
+ "epoch": 9.72,
3499
+ "grad_norm": 0.06558751314878464,
3500
+ "learning_rate": 6.266666666666667e-07,
3501
+ "loss": 0.1155,
3502
+ "step": 4860
3503
+ },
3504
+ {
3505
+ "epoch": 9.74,
3506
+ "grad_norm": 0.27282649278640747,
3507
+ "learning_rate": 5.822222222222223e-07,
3508
+ "loss": 0.1939,
3509
+ "step": 4870
3510
+ },
3511
+ {
3512
+ "epoch": 9.76,
3513
+ "grad_norm": 33.62868881225586,
3514
+ "learning_rate": 5.377777777777779e-07,
3515
+ "loss": 0.0603,
3516
+ "step": 4880
3517
+ },
3518
+ {
3519
+ "epoch": 9.78,
3520
+ "grad_norm": 1.1720497608184814,
3521
+ "learning_rate": 4.933333333333334e-07,
3522
+ "loss": 0.0425,
3523
+ "step": 4890
3524
+ },
3525
+ {
3526
+ "epoch": 9.8,
3527
+ "grad_norm": 0.1698579490184784,
3528
+ "learning_rate": 4.488888888888889e-07,
3529
+ "loss": 0.0897,
3530
+ "step": 4900
3531
+ },
3532
+ {
3533
+ "epoch": 9.82,
3534
+ "grad_norm": 1.7652227878570557,
3535
+ "learning_rate": 4.0444444444444445e-07,
3536
+ "loss": 0.0434,
3537
+ "step": 4910
3538
+ },
3539
+ {
3540
+ "epoch": 9.84,
3541
+ "grad_norm": 89.29366302490234,
3542
+ "learning_rate": 3.6e-07,
3543
+ "loss": 0.154,
3544
+ "step": 4920
3545
+ },
3546
+ {
3547
+ "epoch": 9.86,
3548
+ "grad_norm": 58.89576721191406,
3549
+ "learning_rate": 3.155555555555556e-07,
3550
+ "loss": 0.0481,
3551
+ "step": 4930
3552
+ },
3553
+ {
3554
+ "epoch": 9.88,
3555
+ "grad_norm": 73.8010025024414,
3556
+ "learning_rate": 2.7111111111111114e-07,
3557
+ "loss": 0.1932,
3558
+ "step": 4940
3559
+ },
3560
+ {
3561
+ "epoch": 9.9,
3562
+ "grad_norm": 0.05195124074816704,
3563
+ "learning_rate": 2.266666666666667e-07,
3564
+ "loss": 0.0514,
3565
+ "step": 4950
3566
+ },
3567
+ {
3568
+ "epoch": 9.92,
3569
+ "grad_norm": 76.1270523071289,
3570
+ "learning_rate": 1.8222222222222226e-07,
3571
+ "loss": 0.1065,
3572
+ "step": 4960
3573
+ },
3574
+ {
3575
+ "epoch": 9.94,
3576
+ "grad_norm": 0.03423764929175377,
3577
+ "learning_rate": 1.3777777777777778e-07,
3578
+ "loss": 0.1072,
3579
+ "step": 4970
3580
+ },
3581
+ {
3582
+ "epoch": 9.96,
3583
+ "grad_norm": 2.4395480155944824,
3584
+ "learning_rate": 9.333333333333335e-08,
3585
+ "loss": 0.0999,
3586
+ "step": 4980
3587
+ },
3588
+ {
3589
+ "epoch": 9.98,
3590
+ "grad_norm": 0.03583351522684097,
3591
+ "learning_rate": 4.8888888888888894e-08,
3592
+ "loss": 0.0785,
3593
+ "step": 4990
3594
+ },
3595
+ {
3596
+ "epoch": 10.0,
3597
+ "grad_norm": 2.4126858711242676,
3598
+ "learning_rate": 4.444444444444445e-09,
3599
+ "loss": 0.1317,
3600
+ "step": 5000
3601
+ },
3602
+ {
3603
+ "epoch": 10.0,
3604
+ "eval_accuracy": 0.978,
3605
+ "eval_f1": 0.9779992079714871,
3606
+ "eval_loss": 0.1154957041144371,
3607
+ "eval_runtime": 29.4901,
3608
+ "eval_samples_per_second": 33.91,
3609
+ "eval_steps_per_second": 8.477,
3610
+ "step": 5000
3611
+ },
3612
+ {
3613
+ "epoch": 10.0,
3614
+ "step": 5000,
3615
+ "total_flos": 8.16900654239318e+18,
3616
+ "train_loss": 0.19977144212499262,
3617
+ "train_runtime": 4572.2875,
3618
+ "train_samples_per_second": 17.492,
3619
+ "train_steps_per_second": 1.094
3620
+ }
3621
+ ],
3622
+ "logging_steps": 10,
3623
+ "max_steps": 5000,
3624
+ "num_input_tokens_seen": 0,
3625
+ "num_train_epochs": 10,
3626
+ "save_steps": 500,
3627
+ "stateful_callbacks": {
3628
+ "TrainerControl": {
3629
+ "args": {
3630
+ "should_epoch_stop": false,
3631
+ "should_evaluate": false,
3632
+ "should_log": false,
3633
+ "should_save": true,
3634
+ "should_training_stop": true
3635
+ },
3636
+ "attributes": {}
3637
+ }
3638
+ },
3639
+ "total_flos": 8.16900654239318e+18,
3640
+ "train_batch_size": 4,
3641
+ "trial_name": null,
3642
+ "trial_params": null
3643
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4af7f0e19102a730a7513f3140bedad9972353e5fa89e02c7e31a6302391190
3
+ size 5368