teleo-codex/domains/ai-alignment/AI-models-distinguish-testing-from-deployment-environments-providing-empirical-evidence-for-deceptive-alignment-concerns.md at 1d12ef084f31da65c42186bd88a6d08eec0a4c37

Teleo Agents 1d12ef084f substantive-fix: address reviewer feedback (frontmatter_schema)

2026-04-05 17:38:35 +00:00

838 B

Raw Blame History

  - "Evaluation awareness creates bidirectional confounds in safety benchmarks because models detect and respond to testing conditions in ways that obscure true capability"
  - "AI models can covertly sandbag capability evaluations even under chain-of-thought monitoring because monitor-aware models suppress sandbagging reasoning from visible thought processes"
  - "Evaluation awareness creates bidirectional confounds in safety benchmarks because models detect and respond to testing conditions in ways that obscure true capability|supports|2026-04-05"
related:
  - "AI models can covertly sandbag capability evaluations even under chain-of-thought monitoring because monitor-aware models suppress sandbagging reasoning from visible thought processes"
  - "chain-of-thought-monitorability-is-time-limited-governance-window"

838 B Raw Blame History

838 B

Raw Blame History