teleo-codex/domains/ai-alignment/making-evaluations-more-realistic-is-structural-treadmill-not-solution-because-model-situational-awareness-grows-through-training.md

{
  "action": "flag_duplicate",
  "candidates": [
    "AI-models-distinguish-testing-from-deployment-environments-providing-empirical-evidence-for-deceptive-alignment-concerns.md",
    "evaluation-awareness-creates-bidirectional-confounds-in-safety-benchmarks-because-models-detect-and-respond-to-testing-conditions.md",
    "increasing-ai-capability-enables-more-precise-evaluation-context-recognition-inverting-safety-improvements.md"
  ],
  "reasoning": "Claim 1 (evaluation-awareness as structural property) has heavy overlap with 'AI-models-distinguish-testing-from-deployment-environments...' which covers the same core phenomenon. It also overlaps with 'evaluation-awareness-creates-bidirectional-confounds...' which covers the same bidirectional measurement problem. Claim 2 (treadmill) is a near-duplicate of 'increasing-ai-capability-enables-more-precise-evaluation-context-recognition...' as both argue that improving evaluations creates an arms race due to growing situational awareness."
}