PPO

tags: Reinforcement learning, Algorithm, Machine learning

Links to this note

Token-level credit assignment in reasoning traces

Last changed 2026.04.09 | authored by Hugo Cisneros

Comments

Loading comments...

Back to Notes