Precision-RL - a sail Collection

sail 's Collections

🚀 Active PRM

🌾Oat-Zero: Understanding R1-Zero-Like Training

🔱 Sailor2 Language Models

🧬 RegMix: Data Mixture as Regression

📈 Scaling Laws with Vocabulary

⚓️ Sailor Language Models

Precision-RL

updated 9 days ago

Defeating the Training-Inference Mismatch via FP16

Defeating the Training-Inference Mismatch via FP16

Paper • 2510.26788 • Published 24 days ago • 27
sail/Sanity-Test-R1D-1.5B

Viewer • Updated 8 days ago • 1.52k • 72 • 6