DeepSeek 的含金量还在上升
时间: 2025-03-22 18:56:10 | 作者: 贝博体育下载app
国内大模型公司深度求索推出的DeepSeek App在苹果美国区免费App下载排行榜榜首,力压ChatGPT。
2.DeepSeek大模型训练成本仅为558万美元,API服务价格亲民,性能比肩O1推理能力。
3.除此之外,DeepSeek在后训练阶段大规模使用强化学习技术,提升模型推理能力。
4.尽管如此,DeepSeek仍存在功能不足的问题,如无法创作图片和生成PPT。
5.未来,DeepSeek将面临金钱上的压力和技术迭代挑战,需继续创新以保持竞争优势。
在昨天(1月26日)就已经崩过一次了,不是我说,DeepSeek 真得升级一下服务器架构咯,不过这已进一步佐证了 DeepSeek 到底有多火。
在这几天,一款名为 DeepSeek 的 App 突然跃升至苹果美国区免费 App 下载排行榜榜首,力压风头无两的 ChatGPT,在通用大模型领域,美区可是 ChatGPT 的主场,DeepSeek 凭什么能反客为主?
可能很多朋友不清楚 DeepSeek 到底是啥,我可以用一句话来形容它:AI 届的 pdd。
OpenAICEO Sam Altman 透露过,GPT-4 的训练成本大约 7800 万美元,还没完成训练的 GPT-5 大模型,为时约半年的一轮训练就消耗了大约 5 亿美元、
而 DeepSeek-V3 大模型训练成本仅为 558 万美元,成本低,其 API 服务价格也延续了过往亲民的打法。
DeepSeek 官网的价格表显示,缓存命中输入价格仅为 0.1 元/百万 tokens,缓冲未命中输入价格为 1 元/百万 tokens,输出价格则为 2 元/百万 tokens,在诸多 AI 大模型中属于最低的一档。(注明:1token 约等于 1.5 个汉字或 3 个英文字母)
1 月 20 日正式对外发布的 DeepSeek-R1 模型,更是夸张。性能上比肩 O1 的推理能力,并同步开源模型权重,任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的 mini 模型。
更何况,DeepSeek-R1 可是支持实时联网、目前唯一支持实时联网的超级 AI,获取到的信息都是最新的。
免费、好用、更快的 AI 大模型,谁不想要呢?也难怪会在海外市场搅动风云。
DeepSeek 来自国内大模型公司深度求索,有别于绝大多数同行复制 Llama 架构的做法,DeepSeek 创始人梁文锋此前曾多次强调,DeepSeek 致力于开辟差异化技术路线,而非复制 OpenAI 的模式,DeepSeek 必须想出更有效的方法来训练其模型。
根据 DeepSeek 公布的 DeepSeek-R1 信息数据显示,其在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
根据 DeepSeek 对外披露的信息不难发现,其在 MLA 多头潜在注意力机制和自研的 DeepSeekMOE 结构方面取得了重大进展,这两种技术设计通过减少训练计算资源,使 DeepSeek 模型更具成本效益,也提升了训练效率。
来自加州伯克利大学在读博士 Jiayi Pan 的研究团队更是成功地以极低的成本(低于 30 美元)复现了 DeepSeek R1-Zero 的关键技术——「顿悟时刻」。
可以这么说,DeepSeek 的成功可以被视为对美国算力出口限制的直接回应,这种外部压力反而刺激了中国的创新:更少的算力需求,更高效的计算效率。
除了自身的优秀保证站稳脚跟,真正让 DeepSeek 爆火的推力,可能还是来自同行的 Meta。
前不久,美国匿名职场社区 teamblind 上,有 Meta 员工直言,DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌,前者低成本的训练工作,让后者难以解释自己超高预算的合理性。
Meta 的工程师们正在争分夺秒地分析 DeepSeek 的技术,试图从中复制任何可能的技术。
微软首席执行官萨蒂亚·纳德拉在瑞士达沃斯世界经济论坛上表示,看到 DeepSeek 的新模型令人印象非常深刻,他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率非常之高,必须非常、非常认真地对待中国的这些进展。
Demis Hassabis 则表示,「我们应该考虑如何保持西方前沿模型的领头羊,我认为西方仍然领先,但能确定的是,中国具有极强的工程和规模化能力。」
英媒《金融时报》刊文《深度求索等中国初创企业正在挑战全球AI巨头》,对于深度求索给予高度评价。文章称,该公司推出的 V3 模型震惊了国际科技界,其性能可与资金更雄厚的 OpenAI 等美国竞争对手相媲美;R1 模型给人留下了深刻印象,是其进军AI推理领域的尝试。
就个人使用体验来看,虽然 DeepSeek 在逻辑推理方面表现出色,但其功能缺乏是最大的问题,无法创作图片、无法生成 PPT,对于很多要使用到这类功能的人群来说是比较难受的
刘知远也公开表示,需要警惕舆论从极度悲观转向极度乐观,觉得我们已全面超越、遥遥领先了,事实上远远没有,用一句话来形容的话:「在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。」
要想要一直「火下去」,除了自身的实力,还有对自己品牌的认知,DeepSeek 最核心的优势还是得益于算法上的创新。
DeepSeek 的 AI 届拼多多称号不是白给的,但卷价格的同时,DeepSeek 未来将要面临的压力和挑战不会少,未来的金钱上的压力、后续的技术迭代,DeepSeek 还能取得怎样的成就,让我们拭目以待!