post-train - a yundu Collection

yundu 's Collections

post-train

updated 25 days ago

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43