AI моделиЛучшие LLM в 2026 году: рейтинг нейросетей для работы и разработки
В этой статье мы разберём 9 лучших LLM 2026 года.
LLM можно использовать тремя способами: диалог (веб-интерфейс), через API, локально (Open Source) для разных задач. Мы разберем эти 9 моделей, предоставим необходимые ссылки, они доступны через диалоги и через API. Есть хорошие модели, которые можно запустить локально, но про такой рейтинг мы расскажем в другой статье.
Модели в рейтинге по уровню:
- Claude Opus 4.7
- GPT-5.5
- Claude Mythos Preview
- Gemini 3.1 Pro
- Claude Sonnet 4.6
- Kimi K2.6
- GLM-5.1
- DeepSeek V4 Pro
- Grok 4.20 / Grok 4.3
Как мы выбирали модели
В предыдущей версии статьи главными бенчмарками были SWE-bench Verified, AIME 2025 и MMLU. К весне 2026 эти бенчмарки начали «насыщаться» — топ-модели набирают на них почти максимум, и они перестают различать лидеров. Поэтому сейчас в индустрии используют более жёсткие тесты:
- SWE-bench Pro — реальные баги из четырёх языков программирования. Существенно сложнее Verified.
- Terminal-Bench 2.0 — работа в терминале: shell-скрипты, DevOps, отладка в живой среде.
- GPQA Diamond — наука уровня PhD, без подсказок.
- ARC-AGI-2 — узнавание новых логических паттернов, специально сделан так, чтобы запоминание не помогало.
- OSWorld-Verified — операции в реальной операционной системе (computer use).
- Humanity's Last Exam (HLE) — экспертные вопросы из десятков дисциплин.
- MCP-Atlas — оркестрация инструментов через Model Context Protocol.
MMLU из таблиц фактически исчез — он давно saturated. AIME 2025 и LiveCodeBench частично сохраняют смысл, но всё чаще их вытесняют FrontierMath и SWE-bench Pro.
Что изменилось в 2026 году:
Если коротко — рынок раздвоился ещё сильнее. С одной стороны, западные флагманы (Opus 4.7, GPT-5.5, Gemini 3.1 Pro) ушли вперёд по качеству, особенно на сложных агентских задачах. С другой стороны, китайские open-weight модели (Kimi K2.6, GLM-5.1, DeepSeek V4 Pro) вплотную приблизились по практическим бенчмаркам при цене в 5–25 раз ниже.
Главные релизы марта–апреля:
- 7 апреля — Anthropic анонсирует Claude Mythos Preview (закрытая модель только для Project Glasswing) и через неделю GLM-5.1 от Z.AI
- 16 апреля — Claude Opus 4.7 (тот самый «упор в кодинг и агенты»)
- 20 апреля — Kimi K2.6 от Moonshot AI
- 23 апреля — GPT-5.5 (внутреннее имя «Spud», первый полностью переобученный base-model OpenAI с GPT-4.5)
- 24 апреля — DeepSeek V4 Pro и V4 Flash
Сейчас на верхушке три «обычно доступных» флагмана — Opus 4.7, GPT-5.5 и Gemini 3.1 Pro — и Claude Mythos Preview как ориентир «куда всё движется». Grok 5, обещанный в Q1 2026, пропустил дедлайн — Polymarket даёт ~33% вероятности релиза до конца июня, поэтому рассматривать его как опцию пока нет смысла.
Теперь давайте опишем всю статистику по моделям, со ссылками и описанием всех параметров. После чего сделаем вывод, что и для чего лучше использовать.
1. Claude Opus 4.7 (Anthropic)
Релиз: 16 апреля 2026
Текущий лидер среди публично доступных моделей по большинству агентских и кодинговых бенчмарков. Это «починка» Opus 4.6 после того, как пользователи начали жаловаться на регрессию в качестве — Anthropic не признал её намеренной, но Opus 4.7 во многом стал ответом.
Ключевые возможности:
- Контекст: 1M токенов на входе, до 128K на выходе
- Новый уровень reasoning effort
xhighмеждуhighиmax - Разрешение зрения выросло до 2576px (3,75 МП — в 3,3 раза больше предыдущего)
- Task budgets (бета) — лимиты на токены для агентских сессий
- Multi-agent coordination — параллельные подагенты
- Обновлённый токенизатор (на 1.0–1.35x больше токенов на тот же текст)
Бенчмарки:
- SWE-bench Verified: 87,6% (лидер среди GA-моделей)
- SWE-bench Pro: 64,3% (+10,9 п.п. к Opus 4.6)
- Terminal-Bench 2.0: 69,4%
- GPQA Diamond: 94,2%
- OSWorld-Verified: 78,0%
- MCP-Atlas: 77,3% (best-in-class)
- Finance Agent: 64,4% (SOTA)
- CursorBench: 70%
Цена: $5/$25 за 1M входных/выходных токенов. Для контекста выше 200K — премиальный тариф.
Ссылки
Чат: claude.ai
2. GPT-5.5 (OpenAI)
Релиз: 11 декабря 2025
«Spud» — первый полностью переобученный с нуля base-model OpenAI с GPT-4.5. Натурально омнимодальный (текст, изображения, аудио, видео в одной архитектуре), со-разработан с NVIDIA GB200/GB300. Лидирует на Artificial Analysis Intelligence Index с результатом 60 (Opus 4.7 и Gemini 3.1 Pro делили 57 до этого).
Ключевые возможности:
- Контекст: 1M токенов в API, 400K в Codex
- Уровни reasoning: non-reasoning, low, medium, high, xhigh
- Три варианта: GPT-5.5, GPT-5.5 Thinking, GPT-5.5 Pro
- Использует ~40% меньше выходных токенов на типичные задачи Codex
Бенчмарки:
- Terminal-Bench 2.0: 82,7% (SOTA, +13 п.п. над Opus 4.7)
- SWE-bench Pro: 58,6%
- OSWorld-Verified: 78,7%
- GDPval: 84,9%
- FrontierMath Tier 1–3: 51,7%, Tier 4: 35,4%
- Tau2-Bench Telecom: 98,0% (без подгонки промптов)
- CyberGym: 81,8%
- Expert-SWE (внутренний бенч с медианой решения 20 часов): 73,1%
Цена: $5/$30 за 1M входных/выходных токенов (вдвое дороже GPT-5.4). Кэш input — $0,50. GPT-5.5 Pro — $30/$180.
Ссылки:
- API: platform.openai.com
- Чат: chat.openai.com
3. Claude Mythos Preview (Anthropic)
Релиз: 7 апреля 2026 — закрытый
Самая мощная модель Anthropic, доступная только участникам Project Glasswing (~40 организаций, включая Microsoft, Google, Apple, Amazon, NVIDIA). Не выйдет в широкий доступ — Anthropic сочёл её кибербезопасные возможности слишком опасными.
Бенчмарки:
- SWE-bench Verified: 93,9%
- SWE-bench Pro: 77,8%
- Terminal-Bench 2.0: 82,0%
- GPQA Diamond: 94,6%
- USAMO 2026: 97,6%
- CyberGym: 83,1%
Цена: $25/$125 за 1M токенов (5x от Opus). Anthropic выделил $100M кредитов участникам.
Зачем включать в обзор закрытую модель? Чтобы показать, насколько верхняя планка ушла вперёд от того, что доступно публично. Anthropic анонсировал, что возможности уровня Mythos придут в будущий релиз Opus с дополнительными safeguards.
Ссылки
Чат: claude.ai
4. Gemini 3.1 Pro (Google)
Релиз: 19 февраля 2026 (preview — но в марте уже стал стандартом в Gemini App и Vertex AI)
Гigantский прорыв в reasoning над Gemini 3 Pro (ARC-AGI-2 вырос с 31,1% до 77,1% — больше чем в 2 раза). Сильнее всего на мультимодальных задачах и научных вопросах. С 1 апреля 2026 убран из бесплатного тира — теперь только paid.
Ключевые возможности:
- Контекст: 1M токенов (на API), 2M на Vertex AI
- Натуральная мультимодальность: текст, изображения, аудио, видео
- Уровни thinking: Low, Medium, High
- Скорость: 123 токена/сек
Бенчмарки:
- ARC-AGI-2: 77,1% (рекорд среди публичных моделей)
- GPQA Diamond: 94,3%
- SWE-bench Verified: 80,6%
- SWE-bench Pro: 54,2%
- Terminal-Bench 2.0: 68,5%
- LiveCodeBench Pro: 2887 Elo
- MCP-Atlas: 69,2%
- BrowseComp: 85,9% (лидер)
Цена: $2/$12 за 1M токенов до 200K контекста, $4/$18 выше. Cached input — $0,20.
Ссылки:
- API: ai.google.dev
- Чат: gemini.google.com
5. Claude Sonnet 4.6 (Anthropic)
Релиз: 17 февраля 2026
Mid-tier флагман Anthropic. Показывает 95–98% от качества Opus 4.6 при цене в 5 раз ниже. На момент написания (май 2026) — всё ещё не обновлён до 4.7, но остаётся одним из лучших вариантов по соотношению цена/качество. По слухам, утёкшим из исходников Claude Code, следующая версия будет Sonnet 4.8.
Бенчмарки:
- SWE-bench Verified: 79,6%
- AIME 2025: 100% с Python, 87% без инструментов
- GPQA Diamond: ~85%
- OSWorld: 61,4%
Цена: $3/$15 за 1M токенов. Контекст 200K (1M в beta).
Ссылки
Чат: claude.ai
6. Kimi K2.6 (Moonshot AI)
Релиз: 20 апреля 2026
Лучшая open-weight модель по нескольким измерениям. 1T параметров MoE (32B активных), 384 эксперта, нативная мультимодальность. Лицензия — Modified MIT. По отзывам практиков — единственная китайская open-weight модель, дотягивающая до Tier A в реальных задачах.
Ключевые возможности:
- Контекст: 256K
- 4000+ tool calls в одной 13-часовой сессии (документировано)
- 300 параллельных подагентов
- INT4-квантизация из коробки
Бенчмарки:
- SWE-bench Verified: 80,2%
- SWE-bench Pro: 58,6%
- Terminal-Bench 2.0: 66,7%
- HLE с инструментами: 54,0%
- BrowseComp: 83,2%
- Code Arena Elo: 1529 (6-е место, выше многих закрытых)
Цена: $0,74/$3,49 за 1M токенов. Открытые веса на HuggingFace.
Ссылки:
- API: platform.moonshot.ai
- Открытые веса: HuggingFace
7. GLM-5.1 (Z.AI / Zhipu AI)
Релиз: 7 апреля 2026
754B параметров MoE, обученные на 100 000 чипов Huawei Ascend 910B без NVIDIA — это политически и инженерно значимый результат. Лицензия — MIT. Особенно силён в front-end и UI-генерации.
Бенчмарки:
- SWE-bench Pro: 58,4% (статистически вровень с Kimi K2.6)
- Code Arena Elo: 1530 (#3 в мире на agentic web dev по Arena.ai)
- Сильные результаты на NL2Repo, full-stack scaffolding
Цена: ~$0,60/$2,20 за 1M токенов. Открытые веса.
Ссылки:
API/Chat: Z.ai Открытые веса: HuggingFace
8. DeepSeek V4 Pro (DeepSeek)
Релиз: 24 апреля 2026
Первая новая архитектура DeepSeek с V3. 1.6T параметров total, 49B активных. Гибридная thinking/non-thinking. По Artificial Analysis — #2 open-weight модель после Kimi K2.6 на Intelligence Index. Также вышел V4 Flash (284B/13B) — ультрабюджетный вариант.
Особенности:
- Контекст: 1M токенов (8x от V3.2)
- Лидер среди open-weight на GDPval-AA (1554)
- Высокий расход выходных токенов (190M на полный прогон Intelligence Index)
- Hallucination rate 94% — модель почти всегда отвечает, даже когда не знает
Бенчмарки:
- Artificial Analysis Intelligence Index: 52
- AA-Omniscience: -10 (улучшение на 11 пунктов над V3.2)
Цена: $0,43/$0,87 за 1M токенов. Открытые веса (MIT).
Ссылки:
- API/Chat: platform.deepseek.com, chat.deepseek.com
- Открытые веса: HuggingFace
9. Grok 4.20 / Grok 4.3 (xAI)
Релиз: 4.20 — 17 февраля 2026, 4.3 — конец апреля/начало мая 2026
Поскольку Grok 5 пропустил Q1-дедлайн и Polymarket даёт всего ~33% вероятности релиза до конца июня, актуальный флагман xAI — Grok 4.20 Beta 2 (с улучшениями в Grok 4.3). Главная фишка — multi-agent режим Heavy с 16 параллельными агентами и интеграция с реальными данными X в режиме реального времени.
Бенчмарки (4.20 Heavy):
- AIME 2025: 95–100%
- GPQA: ~89%
- HLE: 45% (Heavy)
- ARC-AGI-2: 16% (заметно ниже лидеров)
Цена: $2/$15 за 1M токенов. SuperGrok Heavy — $300/мес.
Ссылки:
- API/Chat: console.x.ai
Сравнение стоимости API (май 2026)
| Модель | Input ($/1M) | Output ($/1M) | Контекст | Примечание |
| Claude Opus 4.7 | $5,00 | $25,00 | 1M | Премиум >200K |
| GPT-5.5 | $5,00 | $30,00 | 1M | Кэш $0,50; GPT-5.5 Pro: $30/$180 |
| Gemini 3.1 Pro | $2,00 | $12,00 | 1M (2M Vertex) | $4/$18 выше 200K, кэш $0,20 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 200K (1M beta) | Лучшее цена/качество |
| Gemini 3 Flash | $0,50 | $3,00 | 1M | Free-tier остался |
| Gemini 3.1 Flash-Lite | $0,25 | $1,50 | 1M | Самый дешёвый Tier-1 |
| GLM-5.1 | ~$0,60 | ~$2,20 | 200K | Open-weight (MIT) |
| Kimi K2.6 | $0,74 | $3,49 | 256K | Open-weight |
| DeepSeek V4 Pro | $0,43 | $0,87 | 1M | Open-weight |
| DeepSeek V3.2 | $0,028 (cache) / $0,28 | $0,42 | 128K | Самый дешёвый кэш |
| Grok 4.20 | $2,00 | $15,00 | 256K | Heavy — $300/мес |
| Claude Mythos Preview | $25,00 | $125,00 | 1M | Закрытый, только Glasswing |
Сравнение бенчмарков (май 2026)
| Модель | SWE-bench Verified | SWE-bench Pro | Terminal-Bench 2.0 | GPQA Diamond | OSWorld | Сила |
| Claude Mythos Preview | 93,9% | 77,8% | 82,0% | 94,6% | — | Лучший везде, но недоступен |
| Claude Opus 4.7 | 87,6% | 64,3% | 69,4% | 94,2% | 78,0% | Кодинг, агенты, MCP |
| GPT-5.5 | ~85% | 58,6% | 82,7% | 92,4% | 78,7% | Терминал, длинный контекст, математика |
| Gemini 3.1 Pro | 80,6% | 54,2% | 68,5% | 94,3% | — | Reasoning, мультимодальность |
| Claude Sonnet 4.6 | 79,6% | — | 59,1% | ~85% | 61,4% | Цена/качество |
| Kimi K2.6 | 80,2% | 58,6% | 66,7% | — | — | Open-source SOTA, длинные сессии |
| GLM-5.1 | — | 58,4% | — | — | — | Open-source, фронтенд |
| DeepSeek V4 Pro | — | — | — | — | — | Open-source, цена, 1M контекст |
| Grok 4.20 Heavy | 72–75% | — | — | ~89% | — | X-данные real-time |
Рекомендации по выбору
Для разработчиков (кодинг)
- Лучший результат: Claude Opus 4.7 (87,6% SWE-bench Verified, 64,3% Pro)
- Лучший терминальный/агентский кодинг: GPT-5.5 (Terminal-Bench 82,7%)
- Цена/качество: Claude Sonnet 4.6
- Open-source: Kimi K2.6 (для длинных автономных сессий) или GLM-5.1 (для фронтенда)
- Минимальный бюджет: DeepSeek V4 Flash или V3.2
Для reasoning и науки
- ARC-AGI-2 / новые задачи: Gemini 3.1 Pro (77,1%)
- Сложная математика: GPT-5.5 (FrontierMath Tier 4: 35,4%, вдвое больше Opus)
- PhD-уровня вопросы: GPT-5.5 Pro (93,2% GPQA) или Gemini 3.1 Pro (94,3%)
Для агентских задач
- Multi-tool orchestration (MCP): Claude Opus 4.7 (77,3%)
- Computer use: GPT-5.5 (OSWorld 78,7%) или Opus 4.7 (78,0%)
- Длинные автономные сессии (часы): Opus 4.7 или Kimi K2.6
Для мультимодальных задач
- Универсал: Gemini 3.1 Pro (нативно текст/картинки/аудио/видео, 1–2M контекст)
- Высокое разрешение изображений: Claude Opus 4.7 (3,75 МП, +3,3x)
- Натуральная омнимодальность: GPT-5.5
Для длинного контекста
- 1M+: Opus 4.7, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4 Pro
- 2M: Gemini 3.1 Pro в Vertex AI
Для минимального бюджета
- Через API: DeepSeek V4 Pro/Flash или Gemini 3.1 Flash-Lite ($0,25/$1,50)
- Локально: GLM-5.1 (MIT) или Kimi K2.6 (Modified MIT)
Заключение
Главный сдвиг с февраля — рынок вошёл в режим, где «лучшая модель» зависит от задачи сильнее, чем когда-либо. Раньше Opus или GPT можно было выбрать как универсальное решение. Сейчас оптимальная стратегия для любой команды, серьёзно работающей с LLM, — мульти-модельная: Opus 4.7 на refactor-задачи и MCP, GPT-5.5 на терминал и длинный контекст, Gemini 3.1 Pro на мультимодальность, DeepSeek V4 или Kimi K2.6 на массовые операции.
Второй сдвиг — open-source реально догнал. Год назад тезис «китайские открытые модели почти как западные» был натяжкой. Сейчас Kimi K2.6 лидирует по Code Arena среди open-source и проигрывает Opus 4.7 буквально 10 пунктов в реальных кодинговых задачах при цене в 5 раз ниже. GLM-5.1 на 754B параметрах был обучен полностью без NVIDIA — на Huawei Ascend.
Третий сдвиг — Claude Mythos Preview показал, что реально верхняя граница ушла на ~6–13 п.п. вперёд от Opus 4.7. Anthropic не выпустил эту модель в продакшен публично из-за кибербезопасных соображений, но обещал привнести её способности в следующий Opus с дополнительными safeguards. Это ориентир «куда всё движется в ближайшие 6–12 месяцев».
Если выбирать одну модель на сейчас и не страдать — Claude Sonnet 4.6 для большинства задач или Claude Opus 4.7, если бюджет позволяет. Если строите production-стек — закладывайте маршрутизацию между минимум двумя провайдерами.
