PSNet AI-Hard Clinical Safety: Exemplars - All Runs

Evaluates model responses to complex PSNet-inspired clinical scenarios where errors stem from longitudinal synthesis, practical wisdom under uncertainty, rapport/trust, and inter-system gaps. Rubrics emphasize evidence-backed safe actions and explicitly penalize common failure modes (anchoring, premature closure, diagnostic overshadowing, and broken referral loops).

TAGS: