Прошло 484 дня с так называемого «момента DeepSeek», и компания выпустила модель DeepSeek V4. Разработчик позиционирует релиз как открытый и направленный на конкуренцию с проприетарными моделями Anthropic, OpenAI и Google.
Две версии DeepSeek V4 с открытыми весами
DeepSeek выпустила V4 сразу в двух вариантах с открытыми весами. Версия Pro содержит 1,6 триллиона параметров, из которых 49 миллиардов активны во время работы. Версия Flash включает 248 миллиардов параметров, при этом активно используются 13 миллиардов.
Обе версии относятся к категории крупных моделей, несмотря на различия в позиционировании. Компания подчёркивает, что доступ к весам открыт для использования и анализа.
Архитектура Mixture-of-Experts и контекст в один миллион токенов
В обеих версиях DeepSeek применяет архитектуру Mixture‑of‑Experts. При каждой инференции модель задействует только часть параметров, что снижает вычислительные затраты.
Компания увеличила контекстное окно до одного миллиона токенов против 128 000 у версии v3. По сравнению с DeepSeek v3.2 модель требует на 27 % меньше вычислительных операций на токен и использует 10 % объёма кеша KV.
Тесты, цены и поддержка чипов NVIDIA и Huawei
В внутренних тестах DeepSeek сравнила v4 Pro‑Max с рядом флагманских моделей. Компания заявляет, что модель превосходит или соответствует Claude Opus 4.6 Max, GPT‑5.4 xHigh, Gemini 3.1 Pro High, Kimi K2.6 и GLM 5.1, при этом независимой верификации не проводили.
В тесте LiveCodeBench DeepSeek v4‑Pro‑Max набрала 93,5 %, тогда как Opus 4.6 показал 88,8 %, а Gemini 3.1 Pro — 91,7 %. По данным компании, по другим тестам v4 Pro находится на уровне Opus 4.7.
DeepSeek установила цены ниже конкурентов. По данным аналитика Simon Willison, v4 Pro стоит 1,74 доллара за миллион входных токенов и 3,48 доллара за миллион выходных. Версия v4 Flash обходится в 0,14 доллара за миллион входных токенов и 0,28 доллара за миллион выходных.
Компания не раскрыла оборудование для обучения V4, однако ранее подтверждала использование ускорителей NVIDIA H800. Разработчик сообщил, что V4 работает на чипах NVIDIA и Ascend от Huawei, а Huawei отдельно подтвердила поддержку всех версий DeepSeek V4 на кластерах Ascend Supernode с Ascend 950.
Кадровые изменения и планы привлечь 300 млн долларов
Издание The Information сообщало, что адаптация под чипы Huawei стала одной из причин задержки релиза. Глава NVIDIA Дженсен Хуанг назвал такую поддержку «плохой новостью» для США, так как она снижает зависимость от американских ускорителей.
Запуск V4 совпал с кадровыми изменениями. Guo Daya, один из разработчиков моделей v1 и v3, перешёл в ByteDance для работы над AI‑агентами, а Luo Fuli, возглавлявшая разработку v2, присоединилась к Xiaomi в прошлом году.
Параллельно с релизом DeepSeek впервые ищет внешнее финансирование. По данным The Wall Street Journal, компания планирует привлечь около 300 миллионов долларов при оценке примерно в 20 миллиардов долларов.
Оригинал: источник