Китайская компания в области искусственного интеллекта DeepSeek выпустила DeepSeekMath-V2, новаторскую ИИ-модель математического рассуждения, которая устанавливает новые стандарты производительности и раздвигает границы в решении задач с помощью ИИ.
Новая модель, исходный код которой теперь открыт на платформах Hugging Face и GitHub, представляет новую систему самопроверки, призванную обеспечивать не только правильные ответы, но и логически обоснованные и проверяемые доказательства.
Продемонстрированные моделью результаты соответствуют
уровню золотых призеров как на Международной математической олимпиаде 2025
года, так и на Китайской математической олимпиаде 2024 года.
Примечательно, что эта модель также набрала 118 баллов
из 120 на крайне конкурентном экзамене имени Уильяма Лоуэлла Путнема (ежегодный
математический конкурс для студентов бакалавриата в США и Канаде) 2024 года,
легко превзойдя лучший человеческий результат в 90 баллов.
Возможности модели были дополнительно подтверждены на
тесте IMO-ProofBench, где она превзошла DeepThink от DeepMind.
В процессе эта система сопоставляет две большие
языковые модели: одна выступает в роли «генерирующего» математические
доказательства, а другая — в роли «рецензента», тщательно проверяющего
рассуждения.
По словам команды DeepSeek, такой механизм решает
ключевое ограничение современных достижений ИИ — правильный конечный ответ не
гарантирует правильного процесса рассуждений.
В DeepSeek заявили, что эти прорывы устанавливают
самопроверяющиеся математические рассуждения как жизнеспособный и перспективный
путь для разработки более мощных и надежных математических систем ИИ.