Spaces:

McGill-NLP
/

msteb_leaderboard

Running

vivekvermaiit commited on Jul 25

Commit

cd66ed8

1 Parent(s): 0b8a8d2

show models with some results missing

Files changed (3) hide show

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: Example Leaderboard Template
 emoji: 🥇
 colorFrom: green
 colorTo: indigo
@@ -7,7 +7,7 @@ sdk: gradio
 app_file: app.py
 pinned: true
 license: apache-2.0
-short_description: Duplicate this leaderboard to initialize your own!
 sdk_version: 5.19.0
 ---

 ---
+title: mSTEB Leaderboard
 emoji: 🥇
 colorFrom: green
 colorTo: indigo
 app_file: app.py
 pinned: true
 license: apache-2.0
+short_description: Leaderboard for mSTEB benchmark
 sdk_version: 5.19.0
 ---

src/display/formatting.py CHANGED Viewed

@@ -22,6 +22,8 @@ def styled_message(message):
 def has_no_nan_values(df, columns):
     return df[columns].notna().all(axis=1)
 def has_nan_values(df, columns):
     return df[columns].isna().any(axis=1)

 def has_no_nan_values(df, columns):
     return df[columns].notna().all(axis=1)
+def has_at_least_one_benchmark(df, columns):
+    return df[columns].notna().any(axis=1)
 def has_nan_values(df, columns):
     return df[columns].isna().any(axis=1)

src/populate.py CHANGED Viewed

@@ -3,7 +3,7 @@ import os
 import pandas as pd
-from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
@@ -19,7 +19,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
-    df = df[has_no_nan_values(df, benchmark_cols)]
     return df

 import pandas as pd
+from src.display.formatting import has_no_nan_values, make_clickable_model, has_at_least_one_benchmark
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
+    df = df[has_at_least_one_benchmark(df, benchmark_cols)]
     return df