11月27日消息,全网都在等DeepSeek发布V4大模型,然而好事多磨,这个模型一直没有问世,但DeepSeek也没闲着,时不时来个惊喜,今晚突然低调发布了DeepSeekMath-V2模型。
DeepSeekMath-V2是一款可自我验证的数学推理训练框架,基于 DeepSeek?V3.2?Exp?Base训练而来,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。
目前该模型代码与权重已开源,发布于Hugging Face及GitHub平台。
这款模型强在哪里?先说结果,在IMO 2025和CMO 2024中均达到金牌水平,Putnam 2024获118/120分。
如果对比当前顶级的大模型,比如Claude Sonnet4、GPT-5、Gemini 2.5 Pro等,Basic测试中得分被DeepSeekMath-V2的99分远远甩开,Adveanced中也只比Gemini DeepThink的65.7分略低,这个模型也是谷歌特调的,也达到到了IMO金牌水平。
考虑到DeepSeekMath-V2的开源、免费等特性,可以说它是当前最强的数学模型了。
不过DeepSeek官方的说法倒是很谦虚,表示尽管仍有许多工作需要完成,这些结果表明,自我可验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。
如果联系到DeepSeek最近几款特殊模型的表现,显然他们在V4发布之前积累了相当多的新技术新想法,在OCR、数学等方面表现惊艳,这么一想V4如果是全能型的多模态大模型,那就更值得期待了。
最近更新小米SU7有哪些颜色可选? 热搜新闻
小米新一代su7起售价22.99万元 热搜新闻
全球首个!超14亿吨大港来了 热搜新闻
夫妻档小吃摊年进账超百万元 热搜新闻
打印作业成为家长负担 热搜新闻
81岁大爷考驾照所有科目一把过 热搜新闻
郑州玉石山爆火 有人挖到一大块玉 热搜新闻
平台不得大数据“杀熟” 热搜新闻
经济专家建议给每人发1000元购物券 热搜新闻
这一年,一个个暖心瞬间令人难忘 12-24 02:56:04
重庆市新增本土确诊病例141例,新增本土无症状感染者1846例 12-24 03:01:45
提高防控的科学性和精准性 12-24 03:05:57
新研究:长期少量喝酒等于慢性自杀 喝酒脸红的人更易患癌 11-28 12:14:05
【万人说新疆】帕米尔高原守边人:一家三代接力守边半世纪 12-24 03:05:20
国务院联防联控机制:做好新冠感染者重症和有重症风险因素人群的救治 12-24 03:05:59