MVR Mode

Minimum Viable Reward for fast iteration

What is MVR Mode?

MVR (Minimum Viable Reward) uses compilation success as the only reward signal, skipping Elastic detection.

Standard Mode:  Generate → Compile → Execute → Detect → Reward
MVR Mode:       Generate → Compile → Reward

python malagent/training/raft_trainer.py \
    --config configs/raft_config.yaml \
    --mode mvr \
    --cycles 6

Outcome	Reward
Compiles successfully	1.0
Compile error	0.0

Recommended training sequence:

python malagent/training/raft_trainer.py \
    --mode mvr \
    --cycles 3

Goal: Reach ~40% compile rate

python malagent/training/raft_trainer.py \
    --mode elastic \
    --cycles 3 \
    --resume

Goal: Improve evasion while maintaining compile rate