Record Citations :: FRELIP Discovery

APA (7th ed.) Citation

(2026). Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training. ArXiv cs.LG Recent Papers.

Chicago Style (17th ed.) Citation

"Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training." ArXiv Cs.LG Recent Papers 2026.

MLA (9th ed.) Citation

"Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training." ArXiv Cs.LG Recent Papers, 2026.

Warning: These citations may not always be 100% accurate.