Leaderboard

LLM Leaderboard & Arena Rankings 2026.

Complete LLM leaderboard with daily-updated benchmark scores. Compare and rank the best LLMs by GPQA, MMLU, HLE, SWE-bench, and more alongside API pricing.

LLM Image Video Speech Transcription


Claude Mythos 5 Anthropic	—	—	94.6%	95.5%	—	—	—	—	—	—
Kimi K3 Moonshot AI	—	—	93.5%	—	—	—	—	—	—	—
Gemini 3 Pro Preview Google	45.8%	91.9%	91.9%	76.2%	72.1%	100%	—	—	—	—
gpt-5.4-pro OpenAI	—	—	90.5%	—	—	—	—	—	—	—
gpt-5.4 OpenAI	39.8%	92.8%	89.4%	—	—	—	—	—	—	—
gpt-5.1 OpenAI	—	88.1%	88.1%	76.3%	—	94%	—	—	—	—
gpt-5.4-mini OpenAI	28.2%	88%	88%	—	—	—	—	—	—	—
gpt-5.2-pro OpenAI	36.6%	93.2%	87.9%	—	—	100%	—	74.1%	—	—
gpt-5.3-codex OpenAI	—	—	87.7%	—	—	—	—	—	—	—
Grok 4 xAI	40%	87.5%	87.5%	—	—	91.7%	—	—	—	—
gpt-5 OpenAI	24.8%	85.7%	87.3%	74.9%	—	94.6%	—	—	—	—
Claude Opus 4.5 Anthropic	—	87%	87%	80.9%	—	—	—	90.8%	—	—
Gemini 2.5 Pro Google	17.8%	83%	86.4%	63.2%	50.8%	83%	—	88.9%	90.9%	88.2%
gpt-5.2 OpenAI	34.5%	92.4%	85.4%	80%	—	100%	—	88%	—	—
Grok 3 xAI	—	84.6%	84.6%	—	—	93.3%	—	79.9%	—	—
Kimi K2 Thinking Moonshot AI	—	—	84.5%	—	—	99.1%	—	—	—	—
Claude Sonnet 4.5 Anthropic	—	83.4%	83.4%	—	—	87%	—	—	—	—
o3 OpenAI	14.7%	83.3%	83.3%	69.1%	—	98.4%	—	93.4%	—	—
gpt-5.4-nano OpenAI	24.3%	82.8%	82.8%	—	—	—	—	—	—	—
o4-mini OpenAI	14.7%	81.4%	81.4%	68.1%	—	92.7%	—	—	—	—
o3-mini OpenAI	—	77.2%	79.7%	49.3%	15%	—	97.9%	—	—	—
Claude Opus 4 Anthropic	—	79.6%	79.6%	72.5%	—	75.5%	—	88.8%	—	—
Gemini 2.5 Flash Google	11%	82.8%	78.3%	60.4%	26.9%	72%	—	—	50.4%	—
o1 OpenAI	—	78%	75.7%	41%	47%	—	96.4%	—	—	—
Claude Sonnet 4 Anthropic	—	75.4%	75.4%	72.7%	—	70.5%	—	84%	91.4%	88.7%
Claude Haiku 4.5 Anthropic	—	73%	73%	73.3%	—	80.7%	—	90.8%	—	85.2%
DeepSeek R1OSS DeepSeek	—	—	71.5%	—	—	—	97.3%	—	—	—
gpt-4.5-preview OpenAI	—	—	71.4%	—	—	—	—	—	—	—
Llama 4 MaverickOSS Meta	—	69.8%	69.8%	—	—	—	—	—	—	—
Claude Sonnet 3.7 Anthropic	—	84.8%	68%	70.3%	—	54.8%	82.2%	—	—	—
gpt-4.1-mini OpenAI	3.7%	65%	65%	23.6%	—	40.2%	—	80.1%	9.8%	54.6%
Claude 3.5 Sonnet Anthropic	—	67.2%	65%	49%	—	—	78%	90.4%	95.4%	96.4%
DeepSeek V3OSS DeepSeek	—	59.1%	64.8%	42%	24.9%	—	94%	—	—	—
Gemini 2.0 Flash Google	—	62.1%	62.1%	—	—	—	89.7%	—	—	—
o1 mini OpenAI	—	60%	60%	—	—	—	90%	85.2%	—	92.4%
Llama 4 ScoutOSS Meta	—	57.2%	57.2%	—	—	—	—	79.6%	—	—
GPT-4o OpenAI	5.3%	70.1%	56.1%	33.2%	38.2%	—	60.3%	88.7%	95%	90%
Llama 3.3 70B Meta	—	—	50.5%	—	—	—	77%	86%	86.5%	88.4%
gpt-4.1-nano OpenAI	—	50.3%	50.3%	—	—	—	—	80.1%	—	54.6%
Llama 3.1 405B Meta	—	—	49%	—	—	—	73.8%	87%	—	89%
Amazon Nova Pro Amazon	—	—	46.9%	—	—	—	76.6%	85.9%	—	—
gpt-4.1 OpenAI	5.4%	66.3%	43.4%	54.6%	—	46.4%	—	—	—	67%
Claude 3.5 Haiku Anthropic	—	41.6%	41.6%	40.6%	—	—	69.4%	—	—	—
GPT-4o-mini OpenAI	—	40.2%	40.2%	8.7%	—	—	70.2%	82%	—	87.2%
Amazon Nova 2 Lite Amazon	—	—	—	—	—	—	—	—	—	—
Amazon Nova 2 Omni Amazon	—	—	—	—	—	—	—	—	—	—
Amazon Nova 2 Pro Amazon	—	—	—	—	—	—	—	—	—	—
Amazon Nova Lite Amazon	—	—	—	—	—	—	—	75%	—	—
Amazon Nova Micro Amazon	—	—	—	—	—	—	—	—	—	—
Amazon Nova Premier Amazon	—	—	—	—	—	—	—	87.4%	—	—