Offline Learning

1 article in this category

AI NewsReinforcement LearningOffline Learning

Conservative Q-Learning achieves a 25% higher return mean than Behavior Cloning in safety-critical environments.

Feb 3, 2026