您现在的位置是:综合 >>正文
对话周鸿祎、方汉:DeepSeek能否改写AI战局?
综合45人已围观
简介“DeepSeek在基座大模型上做出的突破,是天才级别的。”最近,国产大模型公司深度求索DeepSeek)引发的舆论震动,让今年春节成为“最有AI味的年”。谈到DeepSeek旗下标志性大模型Deep ...
“DeepSeek在基座大模型上做出的对话突破,是周鸿I战天才级别的。”
最近,祎方国产大模型公司深度求索(DeepSeek)引发的否改舆论震动,让今年春节成为“最有AI味的对话年”。谈到DeepSeek旗下标志性大模型DeepSeek-R1,周鸿I战多位业内人士向澎湃新闻记者表达了高度赞赏。祎方
视觉中国 图
1月28日,大洋彼岸的对话人工智能巨头Open AI CEO山姆·奥特曼(Sam Altman)发文回应DeepSeek带来的挑战:“DeepSeek推出的R1令人影响深刻,我们当然会推出更好的周鸿I战模型,有新的祎方竞争对手也令人振奋。”
国内某Top2 AI初创企业也对记者坦言,否改他们感受到了同行带来的对话压力:“后续我们会加快产品研发的角度。”
与之对比的周鸿I战是在产品上的快速迭代:除夕当天,DeepSeek悄无声息地发布开源多模态模型Janus-Pro。祎方此前1月27日早间,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT。
“多模态考验的是对人类世界和环境的认知,相信DeepSeek在此刻发布多模态大模型,一定有自己的信心和底气。”1月28日,360创始人周鸿祎告诉澎湃新闻记者,“中国大模型技术复仇者联盟战队里一定有DeepSeek的一份,因为这家公司和它的创始人非常低调,他们技术能力和未来前景被市场严重低估了。”
“现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经刹不住车了。”周鸿祎表示。
AI军备竞赛已进入深水期,曾有观点认为,在字节、阿里、腾讯等大厂包围下,AI创业公司将面临洗牌,难逃被并购的命运,而杀出重围的却是似乎“名不见经传”的DeepSeek。DeepSeek走红的秘密是什么,为国内大模型行业带来哪些启示?
DeepSeek优秀在哪?
“DeepSeek公司高层明确对商业化不感兴趣,只想做技术研究,这样的高度一般人达不到。”
有了解DeepSeek人士向记者透露,自己曾经面试过一些AI领域的人才,最后拒绝了自己的公司,去了DeepSeek,理由是他们科研氛围好,是一个真正做事的团队。
“从薪资来看,其实他们只是业内中流水平,高,但并不是最高的。”他向记者坦言,“如果说人才密度,可能还比不上头部大厂。并不是大厂的人不聪明,而是大厂的聪明人花了太多精力在技术之外。大厂虽然薪资高,但是内部斗争也多,想要真正专心做事,反而不如这样的技术公司纯粹。”
尽管在外界眼中,DeepSeek仿佛是一夜爆红,但此前早有多项成就引发行业关注。2024年,在大模型行业率先发起价格战的正是DeepSeek,但并未引起外界关注,此后智谱、字节跳动等跟进,才引发整个行业的降价潮流。
视觉中国 图
当时的DeepSeek,还未真正让他人看到它的实力。2024年,智谱AI COO张帆在接受采访时曾开玩笑说:“我们是主流厂商中第一个降价的。”当时有人提醒,首个降价的厂商其实是DeepSeek,张帆表示:“我说的是主流厂商”。
DeepSeek最引人瞩目的,是其显著降低了大模型开发成本。1月20日,DeepSeek正式发布推理模型R1,其API(编程接口)服务定价为每百万输入tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。DeepSeek的定价约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戏称为AI界的“拼多多”,实现高效低价背后的原因是什么?国内某知名AI公司董事长向记者解释称,这主要得益于DS-V3的多项技术创新。首先,DeepSeek采用MoE架构(Mixture of Experts,混合专家模型),通过将大模型变成多个稀疏的专家小模型,并通过多个模型聚合来达到和传统大模型相当的能力,有效降低了计算成本。
其次,DS-V3在训练方法上进行了重要创新。采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化加上训练的一次成功,使得V3的训练成本降至约550万美元。
而在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理过程中进行自我反思。
“DeepSeek R1的成功意味着,如果基础模型能力够强,在强化学习过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1后惊呼AGI竟然离我们如此之近的原因:因为R1证明了能力足够强的模型是可以不依靠人类自己进化的,尽管现阶段的reward还是需要标签。”上述人士表示。
《麻省理工科技评论》分析称,DeepSeek R1 采用类似ChatGPT o1使用的“思维链”方法,它可以通过逐步处理查询来解决问题。这可能是美国对华高端AI芯片出口管制带来的意外结果,迫使中国的初创企业“优先考虑效率”。
有意思的是,如果问DeepSeek自己R1模型相比OpenAI有哪些特点,DeepSeek的回答是,创新点可能在“注意力机制”和“参数效率”,R1在处理长文本时更聚焦关键部分(比如法律合同中的条款),减少计算量,类似“读书时用荧光笔划重点,只反复看关键段落”。在参数效率方面,用类似MoE(混合专家系统)的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果(类似“看病时分科室挂号,心脏问题找心内科专家,不用让全科医生从头学到尾”)
DeepSeek自我评价道,“DeepSeek像一家精品店,在特定领域更专精;OpenAI像大型超市,啥都有但价格高。”
为什么是DeepSeek?
谈到DeepSeek,离不开创始人梁文锋。这位在外人眼中朴素、低调的“85后”企业家,最近也站在了媒体的聚光灯下。
根据公开报道,梁文锋从小就表露在数学领域的天赋和兴趣,曾是高考状元,在浙大求学期间就与同学一起积累市场行情数据和探索全自动量化交易。
2008年金融危机期间,他带领团队使用机器学习等技术探索全自动量化交易。2015年创立对冲基金“幻方量化”,2021年资产管理规模突破千亿大关。2023年创办深度求索DeepSeek,专注于通用人工智能(AGI)的突破。
“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”在公开采访中,梁文锋本人曾经如此谈论他心中的AGI(通用人工智能)。
在另一段采访中,他提到,中国AI不可能永远处在跟随的位置,“我们经常说中国 AI 和美国有一两年差距,但真实的Gap(差距)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果,“中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”
梁文锋不打无准备之仗。幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。
梁文锋曾在采访中表示,最早的一张卡到1万张卡,这个过程是逐步发生的,而这里面主要是好奇心驱动,“对AI能力边界的好奇”。
“DeepSeek最令美国科技圈震惊的是,在开源大模型上做到了突破性的领先。”昆仑万维CEO方汉向澎湃新闻记者评论称,“以往美国在基座大模型上处于绝对优势,例如ChatGPT,后续的大模型都是基于ChatGPT进行改进和优化。此前,在开源大模型领域最领先的是Meta的Llama系列,但如今DeepSeek彻底超越了Llama,这意味着,后续的行业大模型可能将基于DeepSeek进行深度开发。”
“中国可能取代美国在基座大模型的统治地位,这是美国十分担忧的。”方汉坦言。
美国AI初创公司Perplexity首席执行官在接受采访时认为,DeepSeek的模型堪称“疯狂”。“这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。”
据美国全国广播公司(NBC)报道,美国总统特朗普当地时间1月27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的AI技术给美国科技企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。
“DeepSeek效应”如何发酵
DeepSeek的成功,暴击AI硬件龙头英伟达。
当地时间1月27日,英伟达(Nasdaq:NVDA)股价暴跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。
英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。
视觉中国 图
DeepSeek在国际范围内的成功,也为中国AI初创企业带来“DeepSeek效应”。
“我对AGI的判断,是一场马拉松。目前技术仍然还没有收敛,算力是一个重要的影响因素。”国内AI头部初创企业、面壁智能CEO李大海告诉记者。
他介绍,就像DeepSeek一样,面壁也在旗下开发的MiniCPM-S系列引入自研稀疏化方案,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将Llama、MiniCPM 稀疏度提升至接近 90%,并且也能够在保持模型原有水平的基础上,有效降低模型推理的开销。
“DeepSeek的成功,说明中国人工智能企业已进入世界第一梯队。尽管我们要承认中美在人工智能上确实有原创性的差距,但是R1的发布将会很大程度影响这个行业的发展,2025年中国在AI领域的创新相当值得期待。”资深AI从业者、猎豹移动董事长兼CEO傅盛表示。
而方汉认为,要谈中国在AI上的能力完全赶超美国,还为时尚早,但是DeepSeek的表现,说明中国AI在发展空间上确实为人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,“在AI领域,中国和美国的优势相比其他国家是巨大的。”
“如果要双方真正平起平坐地竞争,还是需要解决算力卡脖子问题。”方汉坦言,“但是我预计将在2-3年内彻底解决这个问题。相信在不久之后,能看到两个国家真正实现你追我赶、公平竞争。”
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“将心比心网”。http://www.bpssyz.com/html/84c296796948.html
相关文章
热搜!雷军开车直播遭封禁!最新发文→
综合雷军边直播边开车本文字数:673,阅读时长大约2分钟1月25日,雷军开启龙年收官直播。下午1点48分,雷军的抖音直播间突然遭到封禁,网友截图显示雷军边开车边直播被举报封禁。据报道,有网友于下午1点44 ...
【综合】
阅读更多国际交流合作战略伙伴签约仪式暨ISO/TC321国内技术对口单位专家全体会议召开
综合中国消费者报杭州讯记者施本允)3月14日,国际交流合作战略伙伴签约仪式暨ISO/TC321国内技术对口单位专家全体会议在杭州召开,来自全国的电商企业代表和标准化领域专家学者共计70余人参加了次会议。杭 ...
【综合】
阅读更多佐治亚大学与马里兰大学
综合摘要本文将对佐治亚大学和马里兰大学进行比较分析,从学校历史、学术实力、校园生活、社会声誉、未来发展等方面展开论述。通过对两所大学的对比,旨在帮助读者更好地了解这两所学府。1. 学校历史佐治亚大学成立于 ...
【综合】
阅读更多
热门文章
最新文章
友情链接
- 《工业和信息化蓝皮书(2016
- 北京盘石:全部曝光 一条短信撑起的灰色产业链
- 我是型男区域选拔赛投票开启,谁才是你心中的型男?
- 神州顺利办一站式企业服务 “灯塔”点亮深圳
- 广州市白云区将利用“黑水虻”处理餐厨垃圾
- 重庆市开州区垃圾焚烧发电厂日处理量达600吨
- 《工业和信息化蓝皮书(2016
- 法国美帕防晒迷你便携装,一周七天的用心防晒
- 家装瓷砖美缝亲身经历大分享!不看后悔!
- 【盘石解析】谷歌被制裁,为啥只发生在欧盟?
- 北京盘石:全部曝光 一条短信撑起的灰色产业链
- 青岛首座多功能集成公厕投入使用 男女蹲位比例1:2
- 重庆市开州区垃圾焚烧发电厂日处理量达600吨
- 广州市白云区将利用“黑水虻”处理餐厨垃圾
- 这个夏天哪里去?盈科旅游带你来宁夏感受中国微缩盆景
- 新疆已有28座垃圾填埋场达Ⅱ级无害化标准
- Formax金融圈爱心书屋回馈社会
- “智慧树园长研习营”助力园所核心竞争力
- 瓷砖缝隙发黑脏了怎么办?卓高美缝教你如何选择合适的瓷砖美缝产
- 热销No.1 连登8大榜单TOP1 完美日记第二代「仿生膜」精华口红再度引领行业
- 神州顺利办一站式企业服务 “灯塔”点亮深圳
- 【盘石解析】谷歌被制裁,为啥只发生在欧盟?
- 用爱传递光明,镇原公益行爱心进行时!
- 《魅力中国城》网上投票平台开通 盈科旅游5亿红包大礼等你来抢!
- 环卫工意外受伤引起热议:如何保障环卫临时工合法权益?
- 穷游网肖异:通往美丽新世界的密码是匠心
- 重庆主次干道保洁实行“以克论净”是如何实现的
- 这个夏天哪里去?盈科旅游带你来宁夏感受中国微缩盆景
- 【盘石解析】谷歌被制裁,为啥只发生在欧盟?
- 兰州环卫工人换上“考卷”式新马甲:随时随地宣传城市文明
- 綦江打通镇兴隆湾社区开展环境卫生整治志愿服务活动
- 精准扶贫兴产业 都邦保险助民生
- 新疆已有28座垃圾填埋场达Ⅱ级无害化标准
- 这个夏天哪里去?盈科旅游带你来宁夏感受中国微缩盆景
- 小哥划船送快递真敬业,一旁的卓高美缝师笑了!
- 文一波:我要做的不是环卫 而是云
- 解密未知剧情 《楚乔传H5》即将上线!
- 智驿信息:坚守智能生态情怀 创造一流酒店视讯
- 苹果7手机丢了怎么找回苹果7plus被偷怎么定位
- 苍南县云岩垃圾焚烧发电项目扩容提升工程获1100万元资金补助