Лучшие LLM в 2026 году: рейтинг нейросетей для работы и разработки
AI модели

Лучшие LLM в 2026 году: рейтинг нейросетей для работы и разработки

Code42
Code42Автор
2

В этой статье мы разберём 9 лучших LLM 2026 года.

LLM можно использовать тремя способами: диалог (веб-интерфейс), через API, локально (Open Source) для разных задач. Мы разберем эти 9 моделей, предоставим необходимые ссылки, они доступны через диалоги и через API. Есть хорошие модели, которые можно запустить локально, но про такой рейтинг мы расскажем в другой статье.

Модели в рейтинге по уровню:

  1. Claude Opus 4.7
  2. GPT-5.5
  3. Claude Mythos Preview
  4. Gemini 3.1 Pro
  5. Claude Sonnet 4.6
  6. Kimi K2.6
  7. GLM-5.1
  8. DeepSeek V4 Pro
  9. Grok 4.20 / Grok 4.3

Как мы выбирали модели

В предыдущей версии статьи главными бенчмарками были SWE-bench Verified, AIME 2025 и MMLU. К весне 2026 эти бенчмарки начали «насыщаться» — топ-модели набирают на них почти максимум, и они перестают различать лидеров. Поэтому сейчас в индустрии используют более жёсткие тесты:

  • SWE-bench Pro — реальные баги из четырёх языков программирования. Существенно сложнее Verified.
  • Terminal-Bench 2.0 — работа в терминале: shell-скрипты, DevOps, отладка в живой среде.
  • GPQA Diamond — наука уровня PhD, без подсказок.
  • ARC-AGI-2 — узнавание новых логических паттернов, специально сделан так, чтобы запоминание не помогало.
  • OSWorld-Verified — операции в реальной операционной системе (computer use).
  • Humanity's Last Exam (HLE) — экспертные вопросы из десятков дисциплин.
  • MCP-Atlas — оркестрация инструментов через Model Context Protocol.

MMLU из таблиц фактически исчез — он давно saturated. AIME 2025 и LiveCodeBench частично сохраняют смысл, но всё чаще их вытесняют FrontierMath и SWE-bench Pro.

Что изменилось в 2026 году:

Если коротко — рынок раздвоился ещё сильнее. С одной стороны, западные флагманы (Opus 4.7, GPT-5.5, Gemini 3.1 Pro) ушли вперёд по качеству, особенно на сложных агентских задачах. С другой стороны, китайские open-weight модели (Kimi K2.6, GLM-5.1, DeepSeek V4 Pro) вплотную приблизились по практическим бенчмаркам при цене в 5–25 раз ниже.

Главные релизы марта–апреля:

  • 7 апреля — Anthropic анонсирует Claude Mythos Preview (закрытая модель только для Project Glasswing) и через неделю GLM-5.1 от Z.AI
  • 16 апреля — Claude Opus 4.7 (тот самый «упор в кодинг и агенты»)
  • 20 апреля — Kimi K2.6 от Moonshot AI
  • 23 апреля — GPT-5.5 (внутреннее имя «Spud», первый полностью переобученный base-model OpenAI с GPT-4.5)
  • 24 апреля — DeepSeek V4 Pro и V4 Flash

Сейчас на верхушке три «обычно доступных» флагмана — Opus 4.7, GPT-5.5 и Gemini 3.1 Pro — и Claude Mythos Preview как ориентир «куда всё движется». Grok 5, обещанный в Q1 2026, пропустил дедлайн — Polymarket даёт ~33% вероятности релиза до конца июня, поэтому рассматривать его как опцию пока нет смысла.

Теперь давайте опишем всю статистику по моделям, со ссылками и описанием всех параметров. После чего сделаем вывод, что и для чего лучше использовать.

1. Claude Opus 4.7 (Anthropic)

Релиз: 16 апреля 2026

Текущий лидер среди публично доступных моделей по большинству агентских и кодинговых бенчмарков. Это «починка» Opus 4.6 после того, как пользователи начали жаловаться на регрессию в качестве — Anthropic не признал её намеренной, но Opus 4.7 во многом стал ответом.

Ключевые возможности:

  • Контекст: 1M токенов на входе, до 128K на выходе
  • Новый уровень reasoning effort xhigh между high и max
  • Разрешение зрения выросло до 2576px (3,75 МП — в 3,3 раза больше предыдущего)
  • Task budgets (бета) — лимиты на токены для агентских сессий
  • Multi-agent coordination — параллельные подагенты
  • Обновлённый токенизатор (на 1.0–1.35x больше токенов на тот же текст)

Бенчмарки:

  • SWE-bench Verified: 87,6% (лидер среди GA-моделей)
  • SWE-bench Pro: 64,3% (+10,9 п.п. к Opus 4.6)
  • Terminal-Bench 2.0: 69,4%
  • GPQA Diamond: 94,2%
  • OSWorld-Verified: 78,0%
  • MCP-Atlas: 77,3% (best-in-class)
  • Finance Agent: 64,4% (SOTA)
  • CursorBench: 70%

Цена: $5/$25 за 1M входных/выходных токенов. Для контекста выше 200K — премиальный тариф.

Ссылки

  API: console.anthropic.com

  Чат: claude.ai

2. GPT-5.5 (OpenAI)

Релиз: 11 декабря 2025

«Spud» — первый полностью переобученный с нуля base-model OpenAI с GPT-4.5. Натурально омнимодальный (текст, изображения, аудио, видео в одной архитектуре), со-разработан с NVIDIA GB200/GB300. Лидирует на Artificial Analysis Intelligence Index с результатом 60 (Opus 4.7 и Gemini 3.1 Pro делили 57 до этого).

Ключевые возможности:

  • Контекст: 1M токенов в API, 400K в Codex
  • Уровни reasoning: non-reasoning, low, medium, high, xhigh
  • Три варианта: GPT-5.5, GPT-5.5 Thinking, GPT-5.5 Pro
  • Использует ~40% меньше выходных токенов на типичные задачи Codex

Бенчмарки:

  • Terminal-Bench 2.0: 82,7% (SOTA, +13 п.п. над Opus 4.7)
  • SWE-bench Pro: 58,6%
  • OSWorld-Verified: 78,7%
  • GDPval: 84,9%
  • FrontierMath Tier 1–3: 51,7%, Tier 4: 35,4%
  • Tau2-Bench Telecom: 98,0% (без подгонки промптов)
  • CyberGym: 81,8%
  • Expert-SWE (внутренний бенч с медианой решения 20 часов): 73,1%

Цена: $5/$30 за 1M входных/выходных токенов (вдвое дороже GPT-5.4). Кэш input — $0,50. GPT-5.5 Pro — $30/$180.

Ссылки:

3. Claude Mythos Preview (Anthropic)

Релиз: 7 апреля 2026 — закрытый

Самая мощная модель Anthropic, доступная только участникам Project Glasswing (~40 организаций, включая Microsoft, Google, Apple, Amazon, NVIDIA). Не выйдет в широкий доступ — Anthropic сочёл её кибербезопасные возможности слишком опасными.

Бенчмарки:

  • SWE-bench Verified: 93,9%
  • SWE-bench Pro: 77,8%
  • Terminal-Bench 2.0: 82,0%
  • GPQA Diamond: 94,6%
  • USAMO 2026: 97,6%
  • CyberGym: 83,1%

Цена: $25/$125 за 1M токенов (5x от Opus). Anthropic выделил $100M кредитов участникам.

Зачем включать в обзор закрытую модель? Чтобы показать, насколько верхняя планка ушла вперёд от того, что доступно публично. Anthropic анонсировал, что возможности уровня Mythos придут в будущий релиз Opus с дополнительными safeguards.

Ссылки

  API: console.anthropic.com

  Чат: claude.ai

4. Gemini 3.1 Pro (Google)

Релиз: 19 февраля 2026 (preview — но в марте уже стал стандартом в Gemini App и Vertex AI)

Гigantский прорыв в reasoning над Gemini 3 Pro (ARC-AGI-2 вырос с 31,1% до 77,1% — больше чем в 2 раза). Сильнее всего на мультимодальных задачах и научных вопросах. С 1 апреля 2026 убран из бесплатного тира — теперь только paid.

Ключевые возможности:

  • Контекст: 1M токенов (на API), 2M на Vertex AI
  • Натуральная мультимодальность: текст, изображения, аудио, видео
  • Уровни thinking: Low, Medium, High
  • Скорость: 123 токена/сек

Бенчмарки:

  • ARC-AGI-2: 77,1% (рекорд среди публичных моделей)
  • GPQA Diamond: 94,3%
  • SWE-bench Verified: 80,6%
  • SWE-bench Pro: 54,2%
  • Terminal-Bench 2.0: 68,5%
  • LiveCodeBench Pro: 2887 Elo
  • MCP-Atlas: 69,2%
  • BrowseComp: 85,9% (лидер)

Цена: $2/$12 за 1M токенов до 200K контекста, $4/$18 выше. Cached input — $0,20.

Ссылки:

5. Claude Sonnet 4.6 (Anthropic)

Релиз: 17 февраля 2026

Mid-tier флагман Anthropic. Показывает 95–98% от качества Opus 4.6 при цене в 5 раз ниже. На момент написания (май 2026) — всё ещё не обновлён до 4.7, но остаётся одним из лучших вариантов по соотношению цена/качество. По слухам, утёкшим из исходников Claude Code, следующая версия будет Sonnet 4.8.

Бенчмарки:

  • SWE-bench Verified: 79,6%
  • AIME 2025: 100% с Python, 87% без инструментов
  • GPQA Diamond: ~85%
  • OSWorld: 61,4%

Цена: $3/$15 за 1M токенов. Контекст 200K (1M в beta).

Ссылки

  API: console.anthropic.com

  Чат: claude.ai

6. Kimi K2.6 (Moonshot AI)

Релиз: 20 апреля 2026

Лучшая open-weight модель по нескольким измерениям. 1T параметров MoE (32B активных), 384 эксперта, нативная мультимодальность. Лицензия — Modified MIT. По отзывам практиков — единственная китайская open-weight модель, дотягивающая до Tier A в реальных задачах.

Ключевые возможности:

  • Контекст: 256K
  • 4000+ tool calls в одной 13-часовой сессии (документировано)
  • 300 параллельных подагентов
  • INT4-квантизация из коробки

Бенчмарки:

  • SWE-bench Verified: 80,2%
  • SWE-bench Pro: 58,6%
  • Terminal-Bench 2.0: 66,7%
  • HLE с инструментами: 54,0%
  • BrowseComp: 83,2%
  • Code Arena Elo: 1529 (6-е место, выше многих закрытых)

Цена: $0,74/$3,49 за 1M токенов. Открытые веса на HuggingFace.

Ссылки:

7. GLM-5.1 (Z.AI / Zhipu AI)

Релиз: 7 апреля 2026

754B параметров MoE, обученные на 100 000 чипов Huawei Ascend 910B без NVIDIA — это политически и инженерно значимый результат. Лицензия — MIT. Особенно силён в front-end и UI-генерации.

Бенчмарки:

  • SWE-bench Pro: 58,4% (статистически вровень с Kimi K2.6)
  • Code Arena Elo: 1530 (#3 в мире на agentic web dev по Arena.ai)
  • Сильные результаты на NL2Repo, full-stack scaffolding

Цена: ~$0,60/$2,20 за 1M токенов. Открытые веса.

Ссылки:

API/Chat: Z.ai Открытые веса: HuggingFace 

8. DeepSeek V4 Pro (DeepSeek)

Релиз: 24 апреля 2026

Первая новая архитектура DeepSeek с V3. 1.6T параметров total, 49B активных. Гибридная thinking/non-thinking. По Artificial Analysis — #2 open-weight модель после Kimi K2.6 на Intelligence Index. Также вышел V4 Flash (284B/13B) — ультрабюджетный вариант.

Особенности:

  • Контекст: 1M токенов (8x от V3.2)
  • Лидер среди open-weight на GDPval-AA (1554)
  • Высокий расход выходных токенов (190M на полный прогон Intelligence Index)
  • Hallucination rate 94% — модель почти всегда отвечает, даже когда не знает

Бенчмарки:

  • Artificial Analysis Intelligence Index: 52
  • AA-Omniscience: -10 (улучшение на 11 пунктов над V3.2)

Цена: $0,43/$0,87 за 1M токенов. Открытые веса (MIT).

Ссылки:

9. Grok 4.20 / Grok 4.3 (xAI)

  Релиз: 4.20 — 17 февраля 2026, 4.3 — конец апреля/начало мая 2026

Поскольку Grok 5 пропустил Q1-дедлайн и Polymarket даёт всего ~33% вероятности релиза до конца июня, актуальный флагман xAI — Grok 4.20 Beta 2 (с улучшениями в Grok 4.3). Главная фишка — multi-agent режим Heavy с 16 параллельными агентами и интеграция с реальными данными X в режиме реального времени.

Бенчмарки (4.20 Heavy):

  • AIME 2025: 95–100%
  • GPQA: ~89%
  • HLE: 45% (Heavy)
  • ARC-AGI-2: 16% (заметно ниже лидеров)

Цена: $2/$15 за 1M токенов. SuperGrok Heavy — $300/мес.

Ссылки:

Сравнение стоимости API (май 2026)

МодельInput ($/1M)Output ($/1M)КонтекстПримечание
Claude Opus 4.7$5,00$25,001MПремиум >200K
GPT-5.5$5,00$30,001MКэш $0,50; GPT-5.5 Pro: $30/$180
Gemini 3.1 Pro$2,00$12,001M (2M Vertex)$4/$18 выше 200K, кэш $0,20
Claude Sonnet 4.6$3,00$15,00200K (1M beta)Лучшее цена/качество
Gemini 3 Flash$0,50$3,001MFree-tier остался
Gemini 3.1 Flash-Lite$0,25$1,501MСамый дешёвый Tier-1
GLM-5.1~$0,60~$2,20200KOpen-weight (MIT)
Kimi K2.6$0,74$3,49256KOpen-weight
DeepSeek V4 Pro$0,43$0,871MOpen-weight
DeepSeek V3.2$0,028 (cache) / $0,28$0,42128KСамый дешёвый кэш
Grok 4.20$2,00$15,00256KHeavy — $300/мес
Claude Mythos Preview$25,00$125,001MЗакрытый, только Glasswing

Сравнение бенчмарков (май 2026)

МодельSWE-bench VerifiedSWE-bench ProTerminal-Bench 2.0GPQA DiamondOSWorldСила
Claude Mythos Preview93,9%77,8%82,0%94,6%Лучший везде, но недоступен
Claude Opus 4.787,6%64,3%69,4%94,2%78,0%Кодинг, агенты, MCP
GPT-5.5~85%58,6%82,7%92,4%78,7%Терминал, длинный контекст, математика
Gemini 3.1 Pro80,6%54,2%68,5%94,3%Reasoning, мультимодальность
Claude Sonnet 4.679,6%59,1%~85%61,4%Цена/качество
Kimi K2.680,2%58,6%66,7%Open-source SOTA, длинные сессии
GLM-5.158,4%Open-source, фронтенд
DeepSeek V4 ProOpen-source, цена, 1M контекст
Grok 4.20 Heavy72–75%~89%X-данные real-time

Рекомендации по выбору

Для разработчиков (кодинг)

  • Лучший результат: Claude Opus 4.7 (87,6% SWE-bench Verified, 64,3% Pro)
  • Лучший терминальный/агентский кодинг: GPT-5.5 (Terminal-Bench 82,7%)
  • Цена/качество: Claude Sonnet 4.6
  • Open-source: Kimi K2.6 (для длинных автономных сессий) или GLM-5.1 (для фронтенда)
  • Минимальный бюджет: DeepSeek V4 Flash или V3.2

Для reasoning и науки

  • ARC-AGI-2 / новые задачи: Gemini 3.1 Pro (77,1%)
  • Сложная математика: GPT-5.5 (FrontierMath Tier 4: 35,4%, вдвое больше Opus)
  • PhD-уровня вопросы: GPT-5.5 Pro (93,2% GPQA) или Gemini 3.1 Pro (94,3%)

Для агентских задач

  • Multi-tool orchestration (MCP): Claude Opus 4.7 (77,3%)
  • Computer use: GPT-5.5 (OSWorld 78,7%) или Opus 4.7 (78,0%)
  • Длинные автономные сессии (часы): Opus 4.7 или Kimi K2.6

Для мультимодальных задач

  • Универсал: Gemini 3.1 Pro (нативно текст/картинки/аудио/видео, 1–2M контекст)
  • Высокое разрешение изображений: Claude Opus 4.7 (3,75 МП, +3,3x)
  • Натуральная омнимодальность: GPT-5.5

Для длинного контекста

  • 1M+: Opus 4.7, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4 Pro
  • 2M: Gemini 3.1 Pro в Vertex AI

Для минимального бюджета

  • Через API: DeepSeek V4 Pro/Flash или Gemini 3.1 Flash-Lite ($0,25/$1,50)
  • Локально: GLM-5.1 (MIT) или Kimi K2.6 (Modified MIT)

Заключение

Главный сдвиг с февраля — рынок вошёл в режим, где «лучшая модель» зависит от задачи сильнее, чем когда-либо. Раньше Opus или GPT можно было выбрать как универсальное решение. Сейчас оптимальная стратегия для любой команды, серьёзно работающей с LLM, — мульти-модельная: Opus 4.7 на refactor-задачи и MCP, GPT-5.5 на терминал и длинный контекст, Gemini 3.1 Pro на мультимодальность, DeepSeek V4 или Kimi K2.6 на массовые операции.

Второй сдвиг — open-source реально догнал. Год назад тезис «китайские открытые модели почти как западные» был натяжкой. Сейчас Kimi K2.6 лидирует по Code Arena среди open-source и проигрывает Opus 4.7 буквально 10 пунктов в реальных кодинговых задачах при цене в 5 раз ниже. GLM-5.1 на 754B параметрах был обучен полностью без NVIDIA — на Huawei Ascend.

Третий сдвиг — Claude Mythos Preview показал, что реально верхняя граница ушла на ~6–13 п.п. вперёд от Opus 4.7. Anthropic не выпустил эту модель в продакшен публично из-за кибербезопасных соображений, но обещал привнести её способности в следующий Opus с дополнительными safeguards. Это ориентир «куда всё движется в ближайшие 6–12 месяцев».

Если выбирать одну модель на сейчас и не страдать — Claude Sonnet 4.6 для большинства задач или Claude Opus 4.7, если бюджет позволяет. Если строите production-стек — закладывайте маршрутизацию между минимум двумя провайдерами.