公告:聚站网(www.565865.com)专业分类目录平台,收录各行业优秀网站(违法站勿扰),快审仅需20元/站,永久收录!合作QQ:404959672

快速审核,网站广告合作请联系我们
  • 分类:131
  • 网站:21818
  • 文章:20834

北京时间3月24日晚间,DeepSeek悄然将DeepSeek-V3模型的最新版本上传到了开源平台HuggingFace。

新模型的版本号为DeepSeek-V3-0324,参数为6850亿,较初代V3版本的6710亿有小幅增长。

尽管DeepSeek十分低调,但还是有不少人在第一时间就注意到了这一更新,并对其进行了测试。

根据社区测试反馈,DeepSeek-V3-0324最明显的变化是编程能力得到了极大的提升。众多开发者基于对新模型的综合体验判断,新模型的编程能力已经接近目前最强编程模型Claude 3.7 Sonnet

3月25日,专业AI模型评测机构Artificial Analysis发布的最新排名显示,新版V3在基准测试中较老版V3跃升了7位,排名所有非推理模型中的第一名。

《每日经济新闻》记者实测后发现,DeepSeek-V3-0324的编程能力确实强大,但仍会出现幻觉问题。

有外媒推测:“V3新版本的推出时机和特点强烈表明,它将成为DeepSeek-R2的基础,后者是一款新的推理模型,预计在未来两个月内推出。这遵循了DeepSeek的既定模式,即基础模型比专门的推理模型早几周推出。”

机构:新版V3排名非推理模型第一

当地时间3月25日,专业AI模型评测机构Artificial Analysis在评测完新版V3后发推表示,这对开源来说是一个里程碑,因为这是开放权重模型首次成为领先的非推理模型。新版V3在他们的基准测试中跃升了7位,为所有非推理模型中的第一名。

图片来源:Artifical Analysis

虽然它在能力上仍落后于众多推理模型,但这并不能影响这一成就的重要性。因为非推理模型相较于推理模型在速度上具有优势,它可以立即回答,而无需花时间“思考”。

AI编码工具aider开发者保罗·高蒂尔对其进行了多语言基准测试,得分为55%,较上一个版本有显著提升。他认为,新版V3是仅次于Claude 3.7 Sonnet的非推理模型了,并且它比R1和o3-mini这样的推理模型更具竞争力,因为它的费用更便宜。

图片来源:X

开源大模型评测项目Kcores大模型竞技场的最新测试数据显示,新版V3的代码能力达到了328.3分,仅次于Claude 3.7 Sonnet(思考模型)和Claude 3.5(因不同测试之间题目不同,所以测试结果会有偏差)。

图片来源:Kcores大模型竞技场

在Kcores大模型中的四个测试中,新版V3都展示了出色的能力,特别是在九大行星模拟测试中,它是测试的25个模型中,唯一一个画了土星环的大模型。

图片来源:Kcores大模型竞技场

记者实测新版V3编程能力:完成度高,难掩幻觉问题 截至目前,DeepSeek并没有放出DeepSeek-V3-0324的跑分结果。

不过,广大网友对其进行了独立测试。在众多用户的体验中,最常被提到的就是新版V3的代码能力。

有网友同时比较了新版V3和R1之间的编程能力,要求:

“创建一个包含CSS和JavaScript的单个HTML文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:

风:(例如,移动的云朵、摇曳的树木或风线)

雨:(例如,落下的雨滴、形成的水坑)

晴:(例如,闪耀的光线、明亮的背景)

雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。

卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。”

从下图可以发现,两者生成的效果可谓天差地别。

左侧为新版V3,右侧为R1 图片来源:X

每经记者也对新版V3进行了测试,请它生成一个可以互动的、介绍世界风光的网站前端。

DeepSeek的响应过程十分丝滑,只花了2分钟就完成了,生成的网站配有日间/夜间模式切换、评论区、评分系统、收藏系统和社媒分享系统。

不过需要指出的是,在一些细节上DeepSeek还是出现了幻觉问题,比如在介绍马丘比丘时配上了和其毫无相关的图片,在介绍长城时张冠李戴地配上了故宫的图片。但整体的网站完成度还是值得点赞的。

网友热评:对OpenAI如同噩梦,对DeepSeek-R2寄予厚望

还有网友综合体验下来表示,新版V3的提升幅度大约相当于Sonnet 3.5到Sonnet 3.6的提升。

有国外网友直呼,这对OpenAI来说就是一场噩梦。

图片来源:X

有外媒表示:“V3新版本的推出时机和特点强烈表明,它将成为DeepSeek-R2的基础,后者是一款新的推理模型,预计在未来两个月内推出。这遵循了DeepSeek的既定模式,即其基础模型比专门的推理模型早几周推出。”

Artificial Analysis表示,此版本可以说比R1更令人印象深刻,并且可能表明R2将是另一个重大飞跃。

Kocres联合创始人“karminski牙医”在测试完新版V3后表示:“DeepSeek-V3新版本的能力十分可怕,甚至这还都不是DeepSeek-V4,更不是DeepSeek-R2!我现在十分期待DeepSeek-R2的发布了!”

国外知名AI评论员“chubby”表示,这个小更新比预期的要大很多,因此我们对DeepSeek-R2寄予厚望。R2会成为有史以来最重要的开源推理模型。

有Reddit用户指出:“这与DeepSeek在圣诞节前后发布V3并在几周后发布R1的方式一致。据传R2将于4月发布。”

如果DeepSeek-R2遵循R1发布的轨迹,它可能会对OpenAI的下一个旗舰模型GPT-5构成直接挑战。此前,阿尔特曼在访谈中表示,GPT-5很快就会和大家见面。

每日经济新闻

    关键词: 模型 来了 也要 榜单
    精彩推荐

    时间:25/09/03

    北京时间3月24日晚间,DeepSeek悄然将DeepSeek-V3模型的最新版本上传到...

    文章分类
    快审网站推荐
    随机网站推荐
    腾讯网21/09/25

    腾讯网从2003年创立至今,已经成为集新闻信息,区域垂直生活服务、社会化...

    CCTV节目为你提供央视各个频道的节目预告、直播、点播等服务,可在线获...

    虎扑体育21/10/05

    虎扑是为年轻男性服务的专业网站,涵盖篮球,足球,F1,NFL等赛事的原创新...

    知网空间21/10/12

    知网空间(中国知网/中国期刊网)汇聚了期刊全文、博士论文、硕士论文...

    高三网21/10/10

    高中三年,陪你一起走过,涵盖高中全部科目学习方法和学习资料,以及高招信...

    962乐游网21/10/12

    962乐游网提供中文单机游戏、单机游戏资讯、游戏补丁等;所有游戏配有...

    房天下是房地产家居网络平台,时刻为你更新最新房源资讯,包括买卖房子、...

    中洁网21/10/09

    中洁网创办于2000年,作为中国厨房卫浴洁具全球卫浴门户网站,为您提供最...

    网易娱乐21/10/08

    网易娱乐是最全面最专业的娱乐资讯平台,提供娱乐八卦新闻和专题报道,集...

    新浪游戏21/10/04

    新浪游戏-全球最大中文游戏媒体,提供最新PC网络游戏、手机游戏、单机...