DeepSeek：带飞全网，带不动化工？

36436次阅读

作者：靳雅洁来源：中国化工报 2025年02月12日收藏

1月20日，在特朗普宣布启动总投资5000亿美元的“星际之门” （Stargate）AI基础设施计划前一天，杭州深度求索人工智能基础技术研究有限公司——一家此前名不见经传的中国企业，将其开发的大语言推理模型DeepSeek-R1以开源形式上线。凭借高性能、低成本优势，这个初出茅庐的大模型立刻成为科技圈、投资圈和媒体圈乃至全网关注的焦点。

《中国化工报》记者注意到，春节假期后第一周，多家上市企业宣布接入DeepSeek，带动上证科创板50成份指数和创业板指数均涨超5%。但这场带着全网起飞的“龙卷风”，吹到石油和化工行业时却好像减了速——迄今为止，鲜少有石油和化工企业加入这场狂欢。

对此，工业智能化、AI等研究领域的多位专家近日接受记者采访时表示，DeepSeek横空出世令人鼓舞，但要解决AI大模型在流程工业垂直应用的诸多难题并非易事，能否带飞石油和化工行业，仍需时间检验。

训练便宜≠成本低基础设施花费仍然较高

DeepSeek能在网络上掀起巨浪，甚至引发美国股市中英伟达等科技股出现“历史性”大跌的核心“杀手锏”，在于其颠覆性的低成本与高效率。

根据深度求索公司官方放出的数据，DeepSeek仅用2048块英伟达 H800图形处理器（GPU）和557.6万美元的投入，就训练出了规模达6710亿参数的DeepSeek-V3。Open AI创始成员之一Andrej Karpathy表示，按照以往经验，行业内类似能力级别的大模型大多使用约10万张GPU。例如，Llama 3 405B模型消耗了3080万GPU小时，而DeepSeek-V3则用了280万GPU小时，计算需求仅为前者的十一分之一。

此前，市场上也普遍认为同等参数规模的GPT-4训练花费高达10亿美元。而DeepSeek推出的DeepSeek-R1模型，推理成本仅为OpenAI最新模型（o1）的三十分之一。许多后续研究团队更是用较低的成本成功复现了DeepSeek的模型样本。

从用户端来看，这样的数据似乎意味着企业部署AI大模型的花费从“脚脖子打折”，个人用户部署一个自有大模型好像也不再是梦想。但这真的意味着谁都“用得起”大模型的时代到来了吗？

“部署和训练成本并不等同于应用成本。”一位ICT从业人士表示，DeepSeek成本的降低，主要是靠算法创新对训练成本进行了压缩。根据官方数据，研究团队在训练模型时同时使用了8浮点混合精度训练技术（FP8）、混合专家模型（MoE）以及自主研发的多头潜在注意力（MLA）机制，解决了传统Transformer模型在处理长输入序列时的内存瓶颈问题，可将显存占用降至传统模型的5%~13%。

而应用成本则包括计算设施、传输设施的建设成本，数据收集与存储成本等。以炼厂为例，一套催化裂化装置每秒产生的数据点可能就多达上千个，其中既包括每秒或几分钟就要采集一次的温度和压力数据，也包括需要长期连续测定的催化剂活性数据，还有一些动设备如泵的噪音、振动幅度等其他数据，一家大型炼厂每年产生的数据量可能在千亿级字节。即使DeepSeek依靠算法降低了对GPU服务器集群等计算设施的需求，其数据存储与传输设施的刚性投入也难以降低，中小企业搭建自有大模型仍然存在困难。

图灵奖得主、Meta AI科学家杨立昆（Yann LeCun）也公开发声强调，许多投资者对AI基础设施投资存在“重大误解”。“那些数十亿美元的资金中，很大一部分都投入到了推理基础设施中，而不是训练。数十亿人运行 AI助手服务需要大量的计算，一旦你将视频理解、推理、大规模内存和其他功能纳入AI系统，推理成本就会增加。”杨立昆说。

模型幻觉难除输出内容并不完全可靠

此前，DeepSeek凭借一句“打动你的是人类集体智慧的回声”在网络上引起无数转发和讨论。出于好奇，记者也尝试让它进行了多种风格的写作，在情感及纯文学写作中表现出色的DeepSeek，在涉及专业数据时却有些“不知所云”，它给出了欧洲某家炼油厂应用AI优化运维的案例，但记者按其给出的数据无法查证该炼油厂是否真实存在，“追问” DeepSeek也无法得到该炼油厂更具体的信息。

“这就是大语言模型（LLM）目前应用的一个大问题——模型幻觉。”中化信息技术有限公司专家委员会副主任、华东理工大学讲席教授冯恩波告诉记者，目前LLM仅能胜任知识或数据管理方面的工作，但如果让它产生专业程度较强的新知识、新内容，就需要十分小心，因为“模型幻觉”目前在AI深度学习领域中，仍是难以根除的问题。

其中，一部分幻觉数据可以通过核对输入内容和生成内容发现，并通过调整输入关键词来修正。例如，向AI询问“中国第一家化工企业的名字是什么？”，AI可能会由于抓取关键词的不同，给出“1880年成立的上海江苏药水厂是中国第一家化工厂”或“始建于1954年的吉林化学工业公司（中国石油吉林石化分公司前身），是我国第一家化工企业”的答案，用户可以通过添加例如“新中国成立前/后”等关键词再进行筛选。

另一部分的幻觉则更加“危险”。“有可能AI会给你一个语言华丽、数据漂亮的成果报告，但其中‘融化’了大量不确定性高，甚至在专业人士看来是谬论的数据。”冯恩波强调，尤其要谨防AI讲话“真假参半”，将虚假的数据掩藏在大量专业词汇和华丽的语言之后，因为即使是对相关从业者来说，一一核对与辨别这些案例和数据的不合理之处，也是非常困难的事情。如果这些掺杂“幻觉”的数据和知识进入数据库，被用在流程行业实际生产系统的实时优化、实时控制等方面，可能造成严重后果。

对此，他建议，行业可以先利用大数据，建立较为准确的反应机理模型作为“司令员”，在此基础上应用大语言推理模型作为“参谋长”进行辅助判断，再由有经验的操作员最终验证和确定反应流程的实时优化与控制该如何进行，从而提高模型应用的准确性与可靠性。

“目前，DeepSeek这样的大模型也会造成很多‘幻觉’，但企业需要大模型在决策过程中能保证百分之百的准确性。”北京中关村科金技术有限公司总裁喻友平说：“大模型在面向企业端（To B）的应用离理想状态还有很大距离，这比面对终端消费者（To C）场景的挑战要大得多。”

数据“地基”不稳广泛应用尚有待时日

近年来，能源化工行业AI大模型应用已经取得了初步成绩，例如中国石油700亿参数昆仑大模型、中控石化化工大模型、中国海油“海能”人工智能模型，但要实现更加广泛的应用，仍在可用性与易用性方面面临挑战。多位业内专家表示，大语言推理模型在流程行业的应用仍然需要夯实数据和机理的“地基”，以保障其安全性与可靠性。

中国工程院院士、中国石油勘探开发研究院正高级工程师刘合此前表示，数据治理是油气行业AI大模型应用的关键，如何在保证数据安全和保密的前提下，充分整合分散的数据并训练行业模型，是行业一直在探索的一个“大问题”。

但对于石化行业来说，推动数据治理，打牢大语言模型应用的“地基”并不容易。一方面，石化行业的数据环境极为复杂、数据来源广，且受外部环境影响噪声高，容易出现数据不完整的情况；另一方面，主流深度学习的模型通常在静态数据集上进行训练，而实际生产是“牵一发而动全身”，催化剂中毒、不同批次原料成分的细微改变，都会使设备状态及工艺参数发生漂移，导致数据集逐渐“过期”，优化模型也不再有效。刘合在其署名文章《油气大模型破局需从三方面发力》中也提出，油气企业必须强化数据全生命周期管理，从数据源头、数据采集、数据清洗、数据融合和匹配、数据完整性增强、数据标注等环节严格规范，建立高质量的训练样本库，提升数据治理能力，从而为行业大模型提供坚实的数据基础。

“除了挖掘数据与场景价值点外，石化企业应用大模型的另一个重点是安全性和保密性问题。”浙江新和成股份有限公司运营首席专家郑根土认为，数据安全治理也是企业所担忧的问题，目前国家已经出台了数据流通安全治理的相关法案，但数据流通安全治理体系仍然有待构建，相关机制也并不完善，需要企业、行业与相关部门多方协同，提高行业数据流通与应用的监管效能。

喻友平表示：“展望未来，AI在To B领域的应用将面临转型与创新的双重挑战。企业需要逐步建立基于大模型的智能决策系统，同时考虑如何增强系统的透明性，确保AI生成内容的可追溯性与可靠性。此外，还应密切关注相关法规政策，以预防不当使用AI技术可能带来的法律和伦理问题。”

24小时热文

DeepSeek：带飞全网，带不动化工？

智能热词“上新”，化工业怎么说？

天津石化、中控技术打造化工实验室智慧“大脑”

国家智能制造标准化总体组会议呼吁：加快人工智能融合应用类标准研制

河北首创开展企业数据编目工作

十四届全国人大三次会议新闻发布会发言人娄勤俭：发展增进人民福祉的人工智能

新疆首批智能制造优秀企业授牌