Benchmark Datasets
updated
Benchmark
•
Updated
•
17.6k
•
489k
•
1.14k
Note
Lv 2.9
Viewer
•
Updated
•
81.4k
•
185k
•
74
Note
Lv 3.1
Viewer
•
Updated
•
1.21k
•
2.01k
•
45
Note
Lv 3.5
Viewer
•
Updated
•
6.51k
•
1.24k
•
38
Note
Lv 4.3
Viewer
•
Updated
•
164
•
153k
•
364
Note
Lv 4.8
Viewer
•
Updated
•
1k
•
2.92k
•
32
Note
Lv 4.9
google-research-datasets/mbpp
Viewer
•
Updated
•
1.4k
•
1.21M
•
213
Note
Lv 5.1
Viewer
•
Updated
•
231k
•
305k
•
640
Note
Lv 6.0
Viewer
•
Updated
•
7.79k
•
274k
•
313
Note
Lv 6.2
edinburgh-dawg/mmlu-redux-2.0
Viewer
•
Updated
•
5.7k
•
11.3k
•
35
Note
Lv 6.3
Viewer
•
Updated
•
164
•
16.1k
•
18
Note
Lv 6.3
Viewer
•
Updated
•
13.8k
•
413
•
8
Note
Lv 6.5
Viewer
•
Updated
•
378
•
11.5k
•
15
Note
Lv 6.8
Viewer
•
Updated
•
541
•
54.8k
•
126
Note
Lv 7.1
Viewer
•
Updated
•
4.43k
•
2.23k
•
123
Note
Lv 7.5
Benchmark
•
Updated
•
12.1k
•
85.1k
•
412
Note
Lv 7.9
livecodebench/code_generation
Viewer
•
Updated
•
121
•
4.19k
•
28
Note
Lv 8.3
Viewer
•
Updated
•
800
•
1
•
1
Note
Lv 8.6
princeton-nlp/SWE-bench_Verified
Viewer
•
Updated
•
500
•
626k
•
255
Note
Lv 9.0
Viewer
•
Updated
•
30
•
6.65k
•
12
Note
Lv 9.2
Viewer
•
Updated
•
30
•
31.2k
•
24
Note
Lv 9.3
Viewer
•
Updated
•
30
•
4.09k
•
7
Note
Lv 9.5
Benchmark
•
Updated
•
1.25k
•
82.9k
•
346
Note
Lv 9.6
Benchmark
•
Updated
•
2.5k
•
21.4k
•
676
Note
Lv 10.0