paper - a mzthhy Collection

mzthhy 's Collections

paper

paper

updated Feb 11, 2025

PILAF: Optimal Human Preference Sampling for Reward Modeling

Paper • 2502.04270 • Published Feb 6, 2025 • 12
The Curse of Depth in Large Language Models

Paper • 2502.05795 • Published Feb 9, 2025 • 40