DeepSeek R1, 저비용 고성능 AI 모델 발표
전문가 해설
요약
딥시크(DeepSeek) 창업자 량원펑이 중국 AI 대모델 경쟁이 치열해지는 가운데 침묵을 지키고 있어 업계의 관심이 집중되고 있다. 텐센트, 바이두, 알리바바, 바이트댄스 등이 수십억 위안의 현금 보상과 신모델 출시로 경쟁하는 동안, 작년 저비용 고성능 R1 모델로 전 세계를 놀라게 한 딥시크는 조용히 업데이트만 진행하고 있다. 외부에서는 딥시크의 차세대 V4 모델 출시를 기대하고 있으며, 량원펑의 다음 혁신을 주목하고 있다.
梁文锋
作者/冯雨晨
此刻,诸神就位。
互联网巨头纷纷争上牌桌,它们野心昭然:都想自家AI大模型应用成为最强流量入口。而AI大模型赛场,那个男人曾是主角。
去年今日,他正巧成名。回到2025年春节前一周,梁文锋带领DeepSeek发布推理大模型R1,以意想不到的低成本,炼出与世界顶级模型同台竞技的性能,自此东方神秘力量成功征服全球科技圈。
这位来自广东湛江的85后,极少露面,身家上百亿,他所创立的DeepSeek江湖地位不需多言。然而,值此中国AI大模型鏖战之际,DeepSeek却似乎隐身。2月11日,DeepSeek只是悄悄更新升级,当外界猜测“DeepSeek新版本要来了吗”,梁文锋及DeepSeek依然保持沉默。
有时候,越是平静,对手越是害怕。
AI战事正酣,梁文锋却静悄悄
这是中国AI史上非常微妙的时刻。
先看大众体感最强烈的发钱——1月底,腾讯元宝撒出10亿元现金红包激励用户,同一时间,百度投入5亿现金红包推广文心助手。很快,阿里千问就带着30亿元红包干爆奶茶店,宇宙厂字节也接着放招,豆包APP上参与新春抽奖最高可领8888元现金红包。
经费在燃烧,用户在狂喜,背后透射着头部AI大模型未来命运的博弈。
产品侧,字节点了一把大火。2月14日,字节豆包大模型2.0官宣发布,而此前2月7日,字节视频模型Seedance 2.0刷爆全网,网友直呼:“一个文艺复兴和科技革命同时发生的时刻到来”。几乎同一时间,阿里火线出击,发布新一代图像生成基础模型Qwen-Image 2.0,还有智谱、MiniMax也赶来,齐发新模型。
此番“招招有回应”,颇有一种诡异的竞争默契。而蓦然回首间,那个曾经掀起大模型开源革命���DeepSeek就显得有些冷静了。
实际上,早前有一些消息流出。
据外媒The Information,DeepSeek 计划于2月中旬即春节前后发布代号为V4的新一代旗舰级人工智能模型,剑指Coding AI王座。但旋即,又有关于V4可能不会按时发布的报道提到:DeepSeek内部对发布时间保持沉默。
就在2月11日,DeepSeek悄悄更新,上下文窗口长度从此前的128K token直接拉到了1M(百万)token。在外界纷纷猜测该版本可能是V4 Preview时,官方依然沉默如常。
但这匹“不问战事”的神秘黑马总是吸引着外界目光。
2026年1月,DeepSeek团队密集发了两篇由梁文锋署名的论文——mHC(流形约束超连接)及Engram(条件记忆),当时市场就开始揣测:这是否与DeepSeek V4核心技术相关?
正值许多公司招聘节奏放慢的年关,DeepSeek仍在各个平台持续招人。如DeepSeek官号上,其2月5日更新了产品经理、客户端研发工程师等多个岗位。
“我们大部分公司习惯follow,而不是创新。”梁文锋曾如此谈及。眼下,诸神混战之际,外界都在期待那个曾经创新出奇迹的颠覆者梁文锋。
县城状元,与中国DeepSeek时刻
中国大陆最南端,广东湛江的米历岭村一度游人如织。
1985年出生的梁文锋就来自这里。父母都是当地小学老师,他从小成绩优异,在初中就学完高中数学,甚至已经开始学大学数学。但相比考试排名,“今天解决了什么问题”,这才是梁文锋少年时期里他父母更关注的。
如此成长底色,与许多年后他在AI圈里被称作“难得拥有纯粹技术理想的人”相得益彰。
17岁那年,作为当地吴川一中的高考状元,梁文锋考入浙江大学电子信息工程专业。2007年,梁文锋继续在浙大信息与通信工程专业读研,师从项志宇,主要做机器视觉研究。
说起来,当时计算机其实算个冷门专业,土木、电气自动化、金融国贸等是更为热门的选择。一种刻板印象是,学计算机的毕业后就要去电脑城修电脑卖电脑,“是个打工的”。
但梁文锋偏偏做此选择。个人兴趣,时���巨变,为天才少年的未来埋下草蛇灰线。
金融危机2008年席卷全球,彼时还是学生的梁文锋敏锐捕捉到危机背后的机遇,与同学一起组团队开始使用机器学习等技术探索全自动量化交易。2015年,梁文锋与浙大同学徐进正式创立杭州幻方科技有限公司——这便是后来大名鼎鼎的幻方量化。
AI从始至终贯穿幻方。在早期,幻方就几乎所有量化策略都采用AI模型计算,2019年及2021年,幻方投了逾10亿元建设自主研发深度学习训练平台“萤火一号”及“萤火二号”。
一路高歌猛进,到2021年,幻方量化成功跻身千亿量化私募之列。这年,幻方量化拿到英伟达A100显卡,并且其AI集群搭载显卡的数量达到“万卡级别”。值得注意的是,此时国内超过1万枚GPU的企业屈指可数,除了幻方量化,其余几乎都是互联网大厂。
38岁这一年,金融大佬梁文锋做了一个决定:创办DeepSeek,要做通用的人工智能。
在他眼里,这或许是满足对技术世界好奇心的一部分。DeepSeek要做的不止是复刻当时已经名声大噪的GPT,而是如其公司名一般,深度求索——真正去做关于大模型的研究,引领行业生态。
愿景很快变为现实,并且出场极其震撼。2025年1月,距离春节还有一周,彼时近百人团队的DeepSeek上线DeepSeek R1版本,直接慷慨开源,推理能力比肩世界顶尖水平但成本仅约几十万美元,彻底颠覆顶级模型需要千万美元级别投入的认知。
至此,梁文锋在中国AI进程史上留下了珍贵一笔:DeepSeek时刻。
诸神之战,中国AI崭新时代
“AI还是要给人用的”,如今更为迫切。
诚如一向追求效能、致力做研究的DeepSeek,也开始俯身去看C端具体的人。在其近期一则产品经理岗位招聘中,职责一栏写道:
·主导DeepSeek C端产品的功能规划与体验设计,敏锐洞察用户需求,不断推动产品创新和体验优化;
·定位并拆解问题,降低用户使用成本,关注用户增长,提升使用深度、粘性和转化;
·......
而过去一年多的时间里,许多DeepSeek C端用户一度怀疑DeepSeek没有产品经理。“页面和入口十分简单,好像不需要赚钱一样”,一位DeepSeek个人用户这么说起,甚至调侃道:它终于发现我们C端用户是实现AGI的关键一环了。
相比DeepSeek的内秀与含蓄,更渴望商业化的大厂们出招则应接不暇。
正如阿里砸30亿红包让千问点奶茶,看似在烧钱买量,实际是AI时代培育用户心智必须做的一步。通过免单这种大众再熟悉不过的补贴打法,先吸引普通人把千问用起来,再试图让他们意识到AI是能点单甚至“能做事”的。
同样,要上春晚送礼的字节豆包,早已在众多生活场景中寻找立足之地:帮人指导韩系帅哥穿搭,给宠物拍艺术照,辅导小孩写作业......在这些角色扮演和情感对话中,豆包月活已然突破2亿。
如此种种,揭开大模型竞争后时代,AI C端应用的需求爆发点将至。
这也让竞争回归最朴素的本质:谁能解决用户真实需求和问题,谁就能成为AI时代的超级入口。
而对于历来需要流量的互联网巨头们,这场战争意义更重——定义下一个十年互联网秩序的机会就在眼前。
本文来自微信公众号“投资界”,作者:冯雨晨,36氪经授权发布。