当前位置: 首页 实时讯息

DeepSeek小步快跑

2025-06-07 04:26:00     阅读量:0

中经记者 李昆昆 李正豪 北京报道

在业界期待DeepSeek R2再次横空出世的背景下,DeepSeek近日仅仅在用户群发布公告称,“DeepSeek-R1模型已完成小版本试升级”。在公告发出的第二天,DeepSeek就开源了DeepSeek RI(0528)。尽管没有发布会,但由于让模型幻觉减半,且性能直逼OpenAI o3和Gemini 2.5 Pro,DeepSeek-R1新版本依然让海外开发者感叹其数学和编程能力的进化,而“开源”的姿态也再次让业界感叹其为“真正的OpenAI”。

在此之前,DeepSeek V3模型也有一次小版本升级,也是通过官方交流群对外发布,没有声势浩大的宣传。有业界人士在接受《中国经营报》记者采访时,将这种“小版本升级”比作DeepSeek低调地小步快跑。财经专栏作者马继鹏也对记者表示:“如果要对比的话,从不同维度来说,DeepSeek在基础能力方面(与国内主流大模型相比)更加强大,但(国内)其他几个大模型在应用上做得更好,离用户可能更近。”

更新在哪儿

DeepSeek方面称,DeepSeek-R1(0528)仍然使用2024年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如OpenAI今年4月17日发布的新款模型o3与Gemini-2.5-Pro。

在代码测试平台Live CodeBench中,DeepSeek-R1(0528)在性能表现上可直接与OpenAI的o3相媲美,得分接近OpenAI的o3(75.8分)和o4-mini(80.2分),取得了73.1分的成绩,排名第四。

DeepSeek方面称,相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。例如在AIME 2025测试中,新版模型准确率由旧版的70%提升至87.5%。这得益于模型在推理过程中的思维深度增强:在AIME 2025测试集上,旧版模型平均每题使用12K tokens,而新版模型平均每题使用23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。

同时,DeepSeek方面表示,其蒸馏DeepSeek-R1(0528)的思维链后训练Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。该模型在数学测试AIME2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B (+10.0%),与Qwen3-235B相当。DeepSeek方面相信,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

“DeepSeek火了以后,之后豆包、Kimi都做了一些升级,也加入了推理的功能,所以,现阶段,其实不好明确判断哪家更好,哪家更差。”马继鹏说,豆包、混元大模型,去问一些问题,能结合自己已有的数据,给用户一些更准确的答案;比如混元大模型,它会结合微信公众号特有的数据,给用户一些更全面、更深刻的答案。

据了解,在模型幻觉改善方面,新版DeepSeek R1进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%—50%,能够有效地提供更为准确、可靠的结果。

在创意写作方面,在旧版R1的基础上,更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

竞争激烈

此次DeepSeek宣布R1更新后,腾讯立即发布消息称,腾讯元宝、搜狗输入法、QQ浏览器等多款产品率先接入DeepSeek-R1-0528。

最新消息称,两名OpenAI公司代表在墨西哥举办的AI Summit峰会上透露,该公司正在开发下一代基础模型GPT-5,并计划通过该模型与竞争对手展开更激烈角逐。他们还明确表示,GPT-5即将面世,另有消息称或许是在今年7月。

阿里云也宣布,通义灵码AI IDE正式上线,用户可在通义灵码官网免费下载开箱即用。自此,通义灵码已拥有插件和IDE两种产品形态。作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。

Kimi的创始人杨植麟在去年年底曾提过一个观点认为AI的发展就像荡秋千,会在两种状态之间来回切换:“有时候,算法、数据都很ready了,但是算力不够,我们要做的就是加算力;但今天我们发现,不断扩大算力规模已经不一定能直接解决问题了,所以这时就需要通过改变算法,来突破这个瓶颈。”

商业智能数据服务商QuestMobile发布的2025年第一季度中国AIGC(人工智能生成内容)应用市场竞争分析报告显示,截至2025年2月底,AI原生App月度活跃用户超2.4亿,比1月增长1.15亿,增幅为88.9%,月人均使用时长和使用次数分别达到113.7分钟、52.4次。3月AI原生App月活规模前三名从此前的豆包、Kimi智能助手、文小言更迭为DeepSeek、豆包、腾讯元宝,用户规模分别是1.94亿、1.16亿、0.42亿。

从用户来源上看,3月DeepSeek用户来源中,豆包、Kimi智能助手、腾讯元宝占比分别为22.2%、3.8%、3.3%;豆包用户来源中,DeepSeek、腾讯元宝、Kimi智能助手占比分别为37.6%、5.7%、5.6%;腾讯元宝用户来源中,DeepSeek、豆包、Kimi智能助手占比分别为52.3%、32.9%、9.6%。

DeepSeek创始人梁文锋曾说:“从长远来看,我们希望建立一个生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。如果产业链完整,我们无须亲自做应用。当然,如果有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。”

“一个大模型好不好,我觉得它取决于两方面的能力:一是它的技术能力,比如推理能力、分析能力,其实更重要的还是它拥有数据的能力。”马继鹏表示,对于DeepSeek来说,其肯定还应该是通用大模型的一个基座,它的能力确实现在别的大模型在短时间内还是无法超越的,所以它未来可能还会继续加强这方面的优势。