Claude 3.5 Haiku	Claude Sonnet 4	Command A	Deepseek Chat V3	Gemini 2.5 Flash	Gemini 2.5 Pro Preview 05 06	Mistral Large 2411	Mistral Medium 3	GPT 4.1	GPT 4.1 Mini	GPT 4.1 Nano	GPT 4o	GPT 4o Mini	Grok 3	Grok 3 Mini
Score	8th 72.1%	1st 82.9%	9th 71.6%	2nd 82.8%	5th 79.6%	10th 69.7%	12th 63.6%	4th 80.2%	7th 76.1%	11th 65.9%	13th 63.4%	14th 62.0%	15th 61.0%	6th 79.3%	3rd 81.7%
73.9%	70%	73%	63%	73%	85%	73%	60%	83%	75%	73%	73%	73%	73%	83%	78%
90.6%	95%	95%	95%	95%	98%	68%	95%	90%	88%	78%	93%	88%	93%	90%	98%
72.3%	48%	100%	100%	90%	71%	100%	50%	100%	100%	48%	69%	54%	33%	46%	75%
76.1%	100%	96%	83%	100%	100%	100%	17%	100%	100%	46%	46%	8%	46%	100%	100%
70.3%	84%	78%	69%	75%	88%	41%	69%	81%	78%	75%	75%	44%	47%	75%	75%
37.9%	16%	56%	22%	35%	50%	44%	25%	50%	44%	32%	25%	3%	41%	56%	69%
50.5%	46%	75%	67%	50%	46%	92%	38%	46%	67%	17%	17%	25%	17%	83%	71%
37.3%	56%	60%	13%	81%	90%	8%	19%	48%	13%	17%	27%	29%	15%	38%	46%
76.0%	50%	100%	63%	88%	81%	56%	50%	88%	100%	100%	32%	100%	38%	94%	100%
81.4%	79%	83%	79%	90%	92%	88%	73%	79%	90%	81%	81%	77%	77%	73%	79%
80.9%	100%	100%	58%	100%	50%	100%	63%	96%	96%	67%	67%	67%	67%	100%	83%
77.1%	73%	71%	69%	79%	69%	100%	73%	79%	94%	71%	67%	67%	71%	75%	98%
95.7%	96%	92%	100%	100%	100%	84%	100%	100%	92%	92%	92%	96%	92%	100%	100%
76.5%	79%	98%	73%	88%	98%	100%	58%	94%	44%	50%	65%	61%	52%	90%	98%
86.8%	93%	93%	83%	83%	73%	85%	95%	88%	90%	90%	83%	80%	90%	88%	88%
76.1%	78%	69%	78%	88%	91%	78%	75%	69%	78%	81%	66%	63%	75%	78%	75%
89.3%	90%	100%	95%	100%	100%	3%	88%	100%	98%	95%	98%	95%	83%	100%	95%
80.3%	66%	80%	84%	88%	82%	93%	79%	89%	82%	72%	82%	61%	77%	82%	88%
68.1%	53%	78%	68%	73%	78%	65%	60%	68%	78%	73%	58%	63%	68%	68%	70%
73.7%	92%	88%	79%	79%	75%	33%	75%	88%	67%	75%	46%	88%	84%	79%	58%
75.1%	63%	88%	72%	91%	88%	72%	72%	66%	53%	72%	72%	66%	60%	100%	91%
55.6%	59%	50%	63%	75%	47%	50%	66%	63%	47%	44%	60%	56%	44%	47%	63%

Hierarchical clustering of models based on response similarity. Models grouped closer are more similar.