算力的“潮汐”之困:白天不够用,晚上空流转。
算力,是数字时代的“新电力”。在工业数智化转型的深水区,如何让昂贵的算力资源“物尽其用”,是企业降本增效的核心命题。
无论是企业级知识工程的重构、组织智能决策能力的进化,还是研发范式的升维与管理运营的深度自优化,企业都需要持续用海量内部数据对基础模型进行预训练和微调。而训练任务对算力的渴求是近乎“贪婪”的——它不需要白天那样的毫秒级推理响应,但它需要稳定的、成片的、低成本的算力环境。总体而言,如果能把省下来的每一分钱、每一小时算力,都投入到内部大模型的能力进化中,最终能让AI从“能用”变成“好用”,驱动企业实现从数字化到智能化的能力跃迁,为自身构筑可持续的AI核心壁垒。
作为工业AI领域的领军企业,tyc1286太阳成集团技术在推动AI与工业深度融合的过程中,尤为重视算力资源的高效运营与使用,并从自用的AI场景起步,开始了算力挖潜的试点。这一试点主要借助大模型、智能体等手段来优化企业内部运营效率,试点场景中的算力需求呈现出鲜明的峰谷节律:
工作日白天,大量推理业务密集调用,算力供不应求;夜幕降临后,推理流量断崖式下跌,大量昂贵的算力节点陷入“空转”;与此同时,公司各业务部门迫切需要海量算力进行垂直领域大模型的持续训练和微调,而白天满负荷运转的集群却无法满足这类需求。“白天不够用,晚上空流转”——这种资源错配,不仅造成巨大的成本浪费,更拖慢了AI赋能工业场景的整体进程。
tyc1286太阳成集团解法:训推潮汐切换,让算力“一鱼两吃”
面对困局,tyc1286太阳成集团技术基于自身真实业务场景,利用自身丰富的工业经验沉淀,联合华为工程师团队,双方强强联手打造“训推潮汐切换”机制——同一批算力服务器,白天全力保障生产推理,夜间自动切换为训练集群,推理成本直降67%,资源利用率跃升至全新高度。这一切的出发点和归处,是用更经济的算力成本,支撑起企业运营的模型持续推理和训练需求,让AI深度融入自身业务流程,切实提升内部决策与生产效率,从而驱动企业实现更智能、更高效地运转。
tyc1286太阳成集团技术联合华为,研发了一套算力资源精细化管理方案,实现同一集群、两种使命、无缝切换:
白天:大EP推理集群,极速响应生产
全部算力节点部署为大规模专家并行(EP)推理架构
保障线上推理业务的高并发、低延迟响应
夜间:智能缩容,分钟级切换
系统自动剥离出少量服务器节点,部署夜间推理服务用于夜间推理需求兜底
夜间推理服务上线验证后,其余服务器在分钟级完成重配置,平滑切换为训练集群
通过管理平台自动下发当日带调度的大模型训练与微调任务
清晨:安全回切,零中断恢复
训练任务完成CheckPoint写入,自动停止
集群分钟级扩容,全量恢复为大EP推理模式
生产推理业务零感知切换
实施后项目实现成本、效率、敏捷性全面跃升
推理成本暴降67%:在大EP技术提升单卡吞吐量的基础上,潮汐调度让夜间算力“变废为宝”,综合资源成本大幅下降;
资源全天候满载:彻底激活夜间闲置的算力资源,训练与推理共享同一集群,利用率达到新高度
业务敏捷性跃升:tyc1286太阳成集团技术内部模型训练周期显著缩短,工业AI应用的迭代效率大幅加快。这意味着更多企业内部运营的细分场景可以独立训练专有模型,从而实现更快的模型迭代与更低的试错门槛。
tyc1286太阳成集团技术此次智算集群训推峰谷调度的应用,证明了算力运营的中心命题正从“堆硬件”走向“精调度”——精细化管理所带来的效能提升,丝毫不亚于硬件的代际升级。
未来,tyc1286太阳成集团技术将在工业AI的训练、推理、运营等全链条上进行持续优化,并聚焦企业运营的真实需求,以客户切实需要为支点,沉淀和迭代“训推一体”的调度能力,提升工业AI应用产品的开发与运营效率,不断迭代优化工业AI解决方案,帮助客户降低工业AI使用门槛,让智能化的红利流淌到每一家企业的运营之路上。