Extract evaluation results from README (#6)

Browse files

- Extract evaluation results from README (08f9b5b0b86eb542f4611c7bbdbee364ae87a188)
- Update README.md (43fd7ee03a438e39d1e304dfefe50e2a06545da4)

Co-authored-by: ben burtenshaw <[email protected]>

Files changed (1) hide show

README.md +135 -0

README.md CHANGED Viewed

@@ -5,6 +5,141 @@ language:
 library_name: transformers
 datasets:
 - allenai/dolma3_mix-5.5T-1125
 ---
 ## Model Details

 library_name: transformers
 datasets:
 - allenai/dolma3_mix-5.5T-1125
+model-index:
+- name: Olmo-3-1125-32B
+  results:
+  - task:
+      type: text-generation
+    dataset:
+      name: Benchmarks
+      type: benchmark
+    metrics:
+    - name: Olmo 3-Eval Math
+      type: olmo_3_eval_math
+      value: 61.6
+    - name: BigCodeBench
+      type: bigcodebench
+      value: 43.9
+    - name: HumanEval
+      type: humaneval
+      value: 66.5
+    - name: DeepSeek LeetCode
+      type: deepseek_leetcode
+      value: 1.9
+    - name: DS 1000
+      type: ds_1000
+      value: 29.7
+    - name: MBPP
+      type: mbpp
+      value: 60.2
+    - name: MultiPL HumanEval
+      type: multipl_humaneval
+      value: 35.9
+    - name: MultiPL MBPPP
+      type: multipl_mbppp
+      value: 41.8
+    - name: Olmo 3-Eval Code
+      type: olmo_3_eval_code
+      value: 40.0
+    - name: ARC MC
+      type: arc_mc
+      value: 94.7
+    - name: MMLU STEM
+      type: mmlu_stem
+      value: 70.8
+    - name: MedMCQA MC
+      type: medmcqa_mc
+      value: 57.6
+    - name: MedQA MC
+      type: medqa_mc
+      value: 53.8
+    - name: SciQ MC
+      type: sciq_mc
+      value: 95.5
+    - name: Olmo 3-Eval MC_STEM
+      type: olmo_3_eval_mc_stem
+      value: 74.5
+    - name: MMLU Humanities
+      type: mmlu_humanities
+      value: 78.3
+    - name: MMLU Social Sci.
+      type: mmlu_social_sci.
+      value: 83.9
+    - name: MMLU Other
+      type: mmlu_other
+      value: 75.1
+    - name: CSQA MC
+      type: csqa_mc
+      value: 82.3
+    - name: PIQA MC
+      type: piqa_mc
+      value: 85.6
+    - name: SocialIQA MC
+      type: socialiqa_mc
+      value: 83.9
+    - name: CoQA Gen2MC MC
+      type: coqa_gen2mc_mc
+      value: 96.4
+    - name: DROP Gen2MC MC
+      type: drop_gen2mc_mc
+      value: 87.2
+    - name: Jeopardy Gen2MC MC
+      type: jeopardy_gen2mc_mc
+      value: 92.3
+    - name: NaturalQs Gen2MC MC
+      type: naturalqs_gen2mc_mc
+      value: 78.0
+    - name: SQuAD Gen2MC MC
+      type: squad_gen2mc_mc
+      value: 98.2
+    - name: Olmo 3-Eval MC_Non-STEM
+      type: olmo_3_eval_mc_non_stem
+      value: 85.6
+    - name: HellaSwag RC
+      type: hellaswag_rc
+      value: 84.8
+    - name: Winogrande RC
+      type: winogrande_rc
+      value: 90.3
+    - name: Lambada
+      type: lambada
+      value: 75.7
+    - name: Basic Skills
+      type: basic_skills
+      value: 93.5
+    - name: DROP
+      type: drop
+      value: 81.0
+    - name: Jeopardy
+      type: jeopardy
+      value: 75.3
+    - name: NaturalQs
+      type: naturalqs
+      value: 48.7
+    - name: SQuAD
+      type: squad
+      value: 94.5
+    - name: CoQA
+      type: coqa
+      value: 74.1
+    - name: Olmo 3-Eval GenQA
+      type: olmo_3_eval_genqa
+      value: 79.8
+    - name: BBH
+      type: bbh
+      value: 77.6
+    - name: MMLU Pro MC
+      type: mmlu_pro_mc
+      value: 49.6
+    - name: Deepmind Math
+      type: deepmind_math
+      value: 30.1
+    - name: LBPP
+      type: lbpp
+      value: 21.7
+    source:
+      name: Model README
+      url: https://huggingface.co/allenai/Olmo-3-1125-32B
 ---
 ## Model Details