首页打开

各行各业纷纷布局,DeepSeek何以成“送给世界的礼物”

来源:齐鲁晚报·齐鲁壹点客户端

2025-02-06 17:55:21原创

DeepSeek的热度还在持续。

自从DeepSeek R1宣布开源后,多家国内外科技企业纷纷宣布接入,供开发者和用户调用。随着各行各业陆续的接入,DeepSeek将深入人们生产生活各个领域。

这个搅动全球AI市场的“鲇鱼”,到底“牛”在哪里,又对我们的生活有何影响?

各行各业纷纷接入Deepseek

中国云平台正集中上线DeepSeek。

2月5日,节后首个工作日,京东云正式上线DeepSeek的R1和V3模型,用户可根据需求选择公有云或专混私有化实例部署。开发者和企业可以借助言犀AI开发计算平台的“AI资产市场”一键部署模型,而那些注重数据安全的客户,将享受京东云vGPUAI算力平台提供的私有化服务进。

同日,大众新闻客户端正式宣布接入全球领先的大语言模型DeepSeek-R1,成为国内首个深度整合该技术的新闻资讯平台。

腾讯的云技术也“不甘示弱”,早在2月4日,腾讯云TI平台推出了丰富的“开发者大礼包”,包含DeepSeek全系模型的限免体验,用户可轻松无阻地参与其中。与此同时,字节跳动旗下的火山引擎让用户通过火山引擎机器学习平台veMLP及火山方舟享受深度学习新体验。

阿里云也同一天宣布已支持一键部署DeepSeek-V3、DeepSeek-R1;百度智能云也通过千帆平台上线了这两款模型,并推出限时低价方案,快速引入用户。

再早之前,2月1日,大年初四,华为云与硅基流动团队强强联合,推出基于其昇腾云服务的DeepSeek推理服务。

这波热潮并不限于国内,2月2日前后,海内外多家知名科技公司也都纷纷接入DeepSeek,包括亚马逊、微软和英伟达等。

一位业内资深人士表示,随着训练成本降低、技术成熟以及开源,大语言模型将愈发成为一种普通产品,各行各业都将迎来更为智能化的升级。

机器“教会”人类如何思考

Deepseek的热度起源于DeepSeek-R1的发布。

1月20日晚间,中国“名不见经传”的AI初创企业深度求索公司(DeepSeek)正式发布推理大模型DeepSeek-R1。因其可比肩OpenAIo1的性能、极低的服务价格,以及代码和模型架构的完全开源,成了搅动全球AI市场的“鲇鱼”。

如果说前段时间DeepSeek的热潮还仅仅局限在AI圈,那么它现在延伸到了更大的范围,随着“深度思考”和“联网搜索”功能上线,DeepSeek同时冲上了中国美国区AppStore免费榜第一。其网页版甚至出现了短时间的宕机。

虽然从测评结果来看,DeepSeek-R1并没有对OpenAI-o1形成“碾压”趋势,但受到了格外多的好评。

“有温度”是很多人使用下来的评价。DeepSeek-R1能够提供“情绪价值”,甚至其一些关于“人生问题”上的回答甚至登上了热搜,被网友称为独属于“中文”大模型的浪漫。

(DeepSeek-R1回答有关“内耗”的提问)

在DeepSeek内点开R1提问后,模型总会先展示出它的一些“碎碎念”,然后再给出答案,“碎碎念”就是它的推理和思考过程,甚至在遇到困惑时会说“等等”来中断自己的思路。而同样的问题问OpenAI-O1,只会给用户展示出原始思维过程的摘要。

从奥数题到明星八卦,人类第一次如此清晰地目睹“机器如何思考”,还特别会“融会贯通”,不少网友评价:仿佛与一个“现实的人”在对话。

这种“透明化推理”让用户不仅能获得答案,还能观察AI的思考逻辑,有网友表示,可以反向学习DeepSeek如何拆解复杂问题,机器教会人类“如何思考”。

一位AI领域的从业人士表示,过去,大模型的训练过程通常是先训练出一个基座模型,然后对他进行监督微调,接下来进行强化学习训练。

“所谓监督微调,就是我们给模型问题和期望的答案,模型先照着范本学习,然后通过打分告诉它做得好还是差,让模型从反馈中学习”,这位人士比喻,“而DeepSeek-R1的训练方式相当于一道范题都不给孩子看,直接送上考场,然后通过对每个问题不同答案得到的分数反馈,让模型自己掌握逐渐解题思路。”

没有监督学习,这就意味着它不需要大量的人工标注数据,也就意味着节约成本,就能显著提升性能;在实际开发过程中,开发者可以省去大量数据准备的时间,以更快的速度推向市场。

而通过“试错”和反馈来积累经验,形成推理能力,让模型即使在完全陌生的领域也能展现出创新的思维和解决问题的能力。

用创新打破AI研发“烧钱”定式

Deepseek还有一个戏谑的名字:“AI界拼多多”。

Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。这是一家“隐形”的AI巨头,拥有1万枚英伟达A100芯片

成立仅一年多时间,2024年5月,Deepseek就发布一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比,推理成本每百万token仅1块钱。DeepSeek也被迅速冠以“AI界拼多多”之称。

然而,仅又过了半年多,12月26日,全新系列模型DeepSeek-v3首个版本上线并同步开源,在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

最让海外AI界震惊的是,在性能突出的同时,该模型的训练成本大幅降低。DeepSeek新开源模型仅花费了560万美元进行训练,成本相当于GPT-4o的十分之一。

资深人士分析称,DeepSeek训练成本低,一个重要原因是使用了数据蒸馏技术(Distillation),通过已有的高质量模型来合成少量高质量数据,并作为新模型的训练数据。同时创新使用了FP8、MLA(多头潜在注意力)和MoE(利用混合专家架构)三种技术。

相较于其他模型使用的MoE(利用混合专家架构)架构,DeepSeek每次只需要占用很小比例的子集专家参数就可以完成计算。MLA(多头潜在注意力)机制则能显著降低了推理过程中内存占用开销。

正如其开发者梁文锋在接受媒体采访时表示,DeepSeek选择“不做垂类和应用,而是做研究,做探索”“做最难的事”“解决世界上最难的问题”。

梁文锋口中的“难”,或许就是“原创”二字,是从“零到十”。

迈向全社会分享的普遍智能

DeepSeek得到如此高的关注度还有一个原因就是“开源”。

过去,作为用户想使用推理模型,例如OpenAI-o1,需要每个月20美金-200美金的会员,而在DeepSeek-R1上,这些都是免费的。对于开发者来说,如果想接入DeepSeek服务数据,每百万token也是“白菜价”。

神思电子首席科学家闵万里表示,AI要想发展就得需要算力,由于算力所需投资规模巨大,这是大多中小科技企业的“痛点”,他们对低成本的人工智能系统的需求更为迫切。而DeepSeek就应运而生。

“看到这一点是很欣喜的,大部分行业垂直模型是基于通用大模型衍生的,未来,越来越多的行业垂直模型接入开源的DeepSeek,能够进一步加速AI在各行各业的普及。”齐鲁文化大模型研发团队负责人、齐鲁晚报·齐鲁壹点技术总监宋耀说。

据悉,齐鲁晚报·齐鲁壹点正在加速布局数字文化产业,其开发的齐鲁文化大模型是山东省数字文化领域的核心项目,是旨在通过数字技术整合全省文化资源,构建文化领域的垂直大模型。

“DeepSeek可以理解为一个通用大模型,通用大模型如同‘地基’,有不同的训练语料,就可以搭建不同的‘房子’”。宋耀表示,“在Deepseek的基础上,可以提升齐鲁文化大模型的推理能力和训练效率;从更大的层面来说,将会推动中国行业垂直模型的发展,AI将成为新的生产力。”

北京智源人工智能研究院副院长兼总工程师林咏华表示,当前,在通用领域,大模型初步呈现了一定的场景应用能力,然而,在医疗健康、教育等垂直领域,大模型所展现的能力尚不足以支持专业应用,其主要原因在于模型训练缺乏高质量可用的行业数据集。而deepseek的开源让国内AI企业“抱团”,一起建设起国内的技术生态。

而对于普通人而言,在过去,人们要获取特定领域的知识,必须具备相关专业的学术背景或经验,这造成了信息获取的不平等。AI的到来,让人们实现了平等获取知识的机会,信息平权时代的时代就要到来。

正如梁文锋曾在接受媒体采访时表示。“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

Deepseek将是送给全世界的礼物。

大众新闻·齐鲁壹点 李梦瑶

责任编辑:王杰