---
title: 面向制造运营管理的多智能体协同框架及自主决策技术研发（v3）
author: 张建宇
date: 2026-05-27
summary: MOM 多智能体系统级方案 v3：7 类关键问题 + 5 模块/3 支撑；创新落在多智能体协同与工业 harness 工程（工业特化六约束 + 上下文工程/推理时计算/评估驱动 + 双岗复核）。
canonical: https://blog.sysu-sam.com/@zhangjianyu/sz2026-mom-agent-v3
---

# 面向制造运营管理的多智能体协同框架及自主决策技术研发

> 申报方向：深圳市 2026 年度重点产业研发计划 · 五、人工智能与具身智能 · 3. 智能体
> 财政档：500 万元 / 3 年
> 牵头单位：富泰华工业（深圳）有限公司
> 主要协作单位：中山大学 SAM Lab（系统智能与自动化实验室）

---

## 〇 · 核心叙事

围绕 AI 服务器整柜制造这一价值密度高、工艺迭代快、多客户工艺频繁切换的工业现场，构建一个整体的工业 MOM 智能体系统，把 MES、SCADA、PLC 等现场执行系统纳为该智能体内含的执行与现场接入层，与它的感知、推理、记忆、协同决策能力同属一个整体，让整柜出厂前的质量主线、浸没式液冷整柜集成与出厂质量管控、ASIC 多客户工艺切换三条业务主线，共享一套贯通"感知—知识—协同—适配"的工业智能体能力栈。

本项目对外的一句话立意：把整体的工业 MOM 从"按预设规则与流程执行"升级为"面向目标自主决策"，让感知、知识、协同决策与执行现场接入作为同一个整体智能体的内在能力，其中执行系统只是这一整体智能体内含的一层，在同一架工业现场里跑通端到端的自主决策回路。

---

## 一 · 项目定位

### 1.1 学术定位

在大语言模型驱动的多智能体系统从通用任务向工业关键任务迁移这一前沿命题上，项目以 AI 服务器整柜制造作为高密度真实工业场景验证床，研究自主感知推理决策、知识记忆持续学习、协同规划编排、自主工具与自我扩展、自主行动安全可控五类核心技术，对标 LLM-MAS Manufacturing、Foundation-Model-Based Industrial Agents、Agentic Manufacturing 四条 2025-2026 学术主线。

### 1.2 工业定位

MOM 软件二十多年的产品形态一直是 MES、SCADA、ERP、PLM、WMS 五个孤岛系统拼出来的工序卡与控制图骨架，建立在单 SKU、长 takt、月级 ECN、统计良率、固定规则五项默认假设之上。AI 服务器整柜制造把这五项假设同时打穿。本课题构建一个整体的工业 MOM 智能体系统，把 MES、SCADA、PLC、液冷 BMS 等既有系统作为该系统内含的执行与现场接入层，承担确定性执行与现场接入，与自主感知推理决策、知识记忆持续学习、协同规划编排、自主工具与自我扩展、自主行动安全可控同属一个系统。

### 1.3 产业定位

项目以富泰华工业（深圳）牵头，承接工业富联及鸿佰科技在 NVL72 整柜、GB300 浸没式液冷整柜、四家超大规模客户 ASIC 服务器三大业务主线的真实工艺数据与产线，在深圳观澜灯塔工厂、龙华研发总部、鸿佰深圳液冷模组产线三地落地。三年期内形成一套可在灯塔工厂复用的工业智能体平台、一套对外溢出的工业多智能体可信 Benchmark、一套面向 MOM 智能体的团体与行业标准、一组可被头部 ICT 制造同业复制的开源核心组件。

---

## 二 · 拟解决的关键问题

本课题的关键问题，是把一个整体的、会自主决策的工业 MOM 智能体真正放到 AI 服务器制造现场之后，这种自主智能体形态特有的难。这些难处在传统软件形态下并不出现，正是把感知、推理、记忆、协同决策、自主行动收进同一个智能体之后才被暴露出来。验证床是三个真实制造场景：C1 整柜总装-Burn-in-出货、C2 浸没式液冷整柜集成、C5 ASIC 多客户工艺切换。

放到这三个场景里，现有四类手段各有管不好的地方。第一类是传统 MOM 工业软件，内核是 SPC 控制图、规则阈值、批级统计良率与事务级日志。第二类是仍靠人来兜底的存量环节，跨域调度拍板、ECN 人工 diff、隐性知识口传都在其中。第三类是 OpenClaw 这类本地智能体工具，能推理也能解释，但每任务独立、判定不可追溯、编排范式单一。第四类是通用大模型平台，只看任务完成度，把可信度等同于幻觉概率，默认全云端。下文把自主智能体形态特有的关键问题分七类展开，每类都点明它在三场景里的具体样子，以及现有手段为什么接不住。

<iframe src="https://blog.sysu-sam.com/@zhangjianyu/sz2026-mom-mindmap" style="width:100%;height:640px;border:1px solid #ddd;border-radius:8px;" title="关键问题思维导图"></iframe>

> 交互思维导图（左右双向 · ⭐核心 / 虚线框重要 / 灰普通）：[点此全屏打开](https://blog.sysu-sam.com/@zhangjianyu/sz2026-mom-mindmap)

> 图例：⭐ 核心 / ● 重要 / 无标记 普通。

### 2.1 决策准不准、敢不敢信

自主智能体承担有责任的判定后，结论的准确度与可信度成为前置门槛。

- ⭐ **结论可追溯·防幻觉** — 现有：通用大模型容易产生幻觉，给出的判定结论无法在现场逐条溯源；攻关：建立可在现场逐项质询的判据链路，对结论开展事实性校验。
- **新故障零样本诊断** — 现有：传统 MOM 在缺少历史故障样本时根本建不出可用的诊断模型；攻关：构建物理、数据与知识三元融合的零样本根因推理与诊断路径。
- **置信自评·适时让人复核** — 现有：业界普遍仅靠人工经验拍板，难以判断哪些结论需要转入复核；攻关：在临界判定区间对结论做置信度自评，并据此自动触发人工复核。
- 多源证据冲突自主裁决 — 现有：SPC 阈值只能给出合格与否的二元结论，无法裁断多源证据冲突；攻关：面向多工位多测点的相互冲突证据，完成自主的权衡判断与仲裁。
- 多模态证据融合推理 — 现有：传统 MOM 各类模态分立采集、彼此之间互不耦合，难以联合判读；攻关：把时序振动曲线与图纸影像纳入统一表示空间后开展融合推理。

**量化目标**：整柜 Burn-in 失效早筛召回不低于 95% 且误杀不超过 1%，可解释覆盖率不低于 80%，出厂判据置信度不低于 99%，支持反事实根因质询。

### 2.2 跟不跟得上产线节拍

自主推理的智能与产线硬实时节拍之间存在结构性矛盾，须分档求解。

- ⭐ **智能慢与亚秒节拍矛盾** — 现有：通用大模型单次推理普遍耗时 1 到 5 秒，远远跟不上产线节拍；攻关：在产线亚秒级节拍约束之内实现分档分级的时效推理调度。
- ⭐ **长链推理时窗内收敛** — 现有：智能体长链推理步数无界，常常迟迟得不出可用的收敛结论；攻关：在限定时窗之内对长链推理过程引入可控的强制收敛机制。
- **跨本体决策一致** — 现有：把模型蒸馏到工位装备端提速之后，同一情形下决策结果会发生漂移；攻关：在云、厂、工位、装备四档本体之间施加严格的决策一致性约束。

**量化目标**：装备侧推理延迟不超过 50 ms、工位侧不超过 20 ms；工位 1.5B 相对工厂 14B 精度衰减不超过 8%。

### 2.3 多智能体协作与编排

多个自主智能体之间的协作与编排，是单体智能不具备的系统级难处。

- **四范式任务自主编排** — 现有：OpenClaw 一类工具只支持单一固定的编排范式，难以适配多样任务；攻关：把图谱、对话、SOP、探索四种范式纳入同一套统一的任务编排框架。
- **多智能体横向协商、共识与冲突仲裁** — 现有：现场仅有主从派工而无横向协商，跨域冲突只能靠电话临时拍板；攻关：实现无中心的横向协商与共识，谈不拢时再按既定优先级仲裁。
- **无 SOP 自主规划与分解** — 现有：在没有现成 SOP 的环节里，传统手段拿不出可执行的作业流程；攻关：面向没有先例的任务实现自主规划，并完成长链条任务分解。

**量化目标**：跨域决策一致性不低于 95%，资源冲突仲裁与资深调度员一致率不低于 92%，长链协商不少于 30 步且全链路时延不超过 60 s。

### 2.4 自主记忆与持续学习

自主智能体要在工艺高频变更下持续积累并演化能力，而非每任务归零。

- ⭐ **跨班次跨产线长记忆** — 现有：传统 MOM 只留事务日志，过往班次与产线发生的事后续调不出来；攻关：建立把历史事件记录在案、需要时按需调出的三层长记忆机制。
- ⭐ **学新不忘旧** — 现有：OpenClaw 一类工具学习新工艺之后，原有旧工艺的能力很快会被冲掉；攻关：实现学习新工艺时不冲掉旧有能力的在线持续学习方法体系。
- 老师傅经验自主沉淀 — 现有：现场的 know-how 长期只能靠人传人，老师傅一旦退休便随之流失；攻关：对隐性知识开展对话式溯源，并在产线现场实现双向回流复用。
- 新工艺少样本适配 — 现有：传统 MOM 每遇到一种新工艺都须重新建模，上线周期普遍偏长；攻关：面向新客户与新工艺，实现少样本条件之下的快速自适应建模。

**量化目标**：知识图谱节点不少于 10 万、边不少于 50 万；GraphRAG Top-1 命中率不低于 85%、多跳推理准确率不低于 85%；ECN 下发从 30 天压到 D+7；旧任务遗忘率不超过 8%；老师傅 SOP 年沉淀不少于 500 条。

### 2.5 自主行动安全可控

智能体能自主行动，安全边界须从用户级下沉到行为级方可受控。

- 自主调用行为级越界 — 现有：传统 MOM 的权限只能控制到用户角色这一粗粒度，管不住具体行为；攻关：通过行为级访问控制 Sidecar 在每次调用时自动注入隔离与管控策略。
- 多客户数据串味隔离 — 现有：跨客户之间的记忆外溢只能依赖事后的人工脱敏来补救处理；攻关：对多客户数据与记忆实施运行期隔离，并在客户切换时彻底清场。
- 不可逆动作人机确认 — 现有：业界人在回路对高风险动作的拦截虽已成标配，仍然较为粗放；攻关：对高风险且不可逆的动作实施三链确认，并联动自动拦截机制。
- 决策前后果预演 — 现有：既有手段只能把决策结果直接放到真实产线上去试错验证；攻关：依托 World Model 在动作执行之前完成对决策后果的预演与影响评估。
- 数据不出域联邦学习 — 现有：联邦学习技术本身虽已成熟，却难以直接适配工业现场数据；攻关：面向多客户工业场景，解决数据非独立同分布带来的适配难题。

**量化目标**：多客户工艺模型联邦学习精度不低于 93%；多客户工艺数据隔离零泄漏可证；智能体行为级误授权率不超过 0.01%；客户切换上下文清场 100%；高风险动作人工确认覆盖率 100%。

### 2.6 自主造工具与自我扩展

智能体自主造工具、扩展自身能力，是工厂数乘工艺数规模化的关键。

- **自主造工具·写 Skill** — 现有：传统 MOM 的工具与判定规则全部依赖人工逐条写死，扩展很慢；攻关：在缺少现成工具时由智能体自主合成所需的工具与可复用 Skill。
- **工具自主发现与组合** — 现有：OpenClaw 一类工具仍需人工逐个去手动配置接入 MCP，难以规模化推广应用；攻关：实现可用工具的自主发现，并按任务需要完成动态组合调用。
- **自造代码正确性自检** — 现有：代码自检在通用软件领域已成熟，工业现场场景尚未得到验证；攻关：对自造的工具开展形式化验证，并拦截不合格者进入工具库。

**量化目标**：自动合成工具与 Skill 的正确性自检通过率不低于 95%，未通过验证的 100% 拦截；新设备接入从月级压到天级。

### 2.7 长期靠得住、怎么证明够格

会自主决策且会漂移的智能体，其长期可靠性与产线准入须能被证明。

- **可信评估·准入基准** — 现有：通用评测只看任务完成度，并不评估自主决策结论的可信程度；攻关：建立面向自主决策的可信评估方法与可量化的产线准入基准。
- 推理质量长期漂移 — 现有：确定性测试根本覆盖不了会随运行时间持续漂移的智能体；攻关：对长期运行的推理质量开展漂移监测，并支持及时回退处置。
- 长链推理自我反思纠错 — 现有：既有手段在长链推理的整个过程之中普遍缺少自我纠错回路；攻关：在长链推理过程之中嵌入自我反思与自我纠错的闭环环节。

**量化目标**：连续运行不少于 6 个月推理质量漂移可监测可回退；Benchmark 覆盖 C1/C2/C5 三场景蓝本、十六维指标、任务数不少于 1000。

---

## 三 · 整体架构

### 3.1 五层完整 MOM 智能体系统

这套五层结构是同一个整体工业 MOM 智能体系统的内部分层。最顶层是行业溢出层，承担可信 Benchmark、团体与行业标准、开源核心组件三类公共品产出。其下是三场景示范层，承接 C1 整柜总装-Burn-in-出货、C2 浸没式液冷集成质量预测、C5 ASIC 多客户工艺切换三个真实场景。再下是 5 模块层，按自主智能体的内在能力组织，由感知推理决策、知识记忆持续学习、协同规划编排、自主工具与自我扩展、自主行动安全可控五项能力构成。模块层之下是 3 层支撑基础设施，提供端云四档协同部署、工业知识基础设施、可信评估与运行监测三类底座。最底层是该智能体系统自身的执行与现场接入层，统一纳管 MES、SCADA、PLC、液冷 BMS、Burn-in 机柜等执行系统，作为该智能体系统内含的执行与现场接入层。

![五层完整 MOM 智能体系统架构（5 模块 + 3 支撑）](https://blog.sysu-sam.com/images/zhangjianyu/mom-v3-arch.png)

### 3.2 模块、支撑、场景之间的耦合关系

5 模块横向解耦、纵向贯通。M1 自主感知·推理·决策与 M2 知识·记忆·持续学习共用 S2 工业知识基础设施提供的工业知识图谱、工艺图纸 VLM、三层长记忆。M3 协同·规划·编排把 Agent、Skill、工业 MCP 三层调用栈内化为自身的编排能力，向 M1、M4、M5 输出任务编排服务。M5 自主行动安全可控借助 M3 的人机确认闸门完成高风险动作拦截。M1、M3、M5 在硬实时通路上共用 S1 端云四档协同部署提供的四档载体。S3 可信评估与运行监测对全部模块的运行结论做评估与漂移监测。

二章 7 类关键问题与 5 模块、3 层支撑的承接关系如下表所示，每类问题都明确落在主承接模块与协同模块/支撑上，构成"关键问题 → 模块/支撑"的贯通。

| 关键问题 | 主要承接模块 | 协同模块 / 支撑 |
|---|---|---|
| 2.1 决策准不准、敢不敢信 | M1 自主感知·推理·决策 | M2 知识·记忆·持续学习、S2 知识基设 |
| 2.2 跟不跟得上产线节拍 | S1 端云四档协同部署 | M1 自主感知·推理·决策 |
| 2.3 多智能体协作与编排 | M3 协同·规划·编排 | — |
| 2.4 自主记忆与持续学习 | M2 知识·记忆·持续学习 | S2 知识基设 |
| 2.5 自主行动安全可控 | M5 自主行动安全可控 | M3 协同·规划·编排（人机确认） |
| 2.6 自主造工具与自我扩展 | M4 自主工具与自我扩展 | — |
| 2.7 长期靠得住、怎么证明够格 | S3 可信评估与运行监测 | M1 自主感知·推理·决策（自反思） |

三场景与模块按"主战、强相关、共用"三档耦合。C1 主战 M1 与 M2，强相关 M3。C2 主战 M1 与 M3 中的硬实时协同子项，强相关 M2 与 M5。C5 主战 M3 与 M5，强相关 M2 与 M4。

### 3.3 端到端数据决策回路

一次典型的端到端回路是这样跑的：业务现场层的传感时序、AOI 影像、工艺日志、ECN 文本进入 S2 工业知识基础设施，经知识图谱、工艺图纸 VLM、三层长记忆形成结构化上下文。M1 完成自主感知、推理与决策，给出带置信度自评的初步判据，并在长链推理中做自反思纠错、在动作执行前以 World Model 做后果预演。M2 提供工艺知识与经验记忆作为推理的依据底盘。M3 在多智能体之间完成协商、共识与冲突仲裁，并把任务在 Agent、Skill、工业 MCP 三层调用栈上自主规划与编排；当缺少现成工具时由 M4 自主造工具、写 Skill 或生成业务代码并通过形式化自检后并入调用栈。M5 在动作下发前施加行为级访问控制与多客户隔离，对高风险不可逆动作触发人机确认与自动拦截。S1 端云四档协同部署按延迟约束、数据敏感度、算力三维约束把决策分发到云端、工厂、工位、装备四档载体。最终经业务现场层的 MES 工单、SCADA 联锁、PLC 安全锁落地为现场动作，所有证据回流到 S3 可信评估与运行监测做漂移监测与产线准入评估，并进入 L5 的可信 Benchmark。

---

## 四 · 5 模块详述

### 4.1 M1 · 自主感知·推理·决策模块

**对应关键问题**：本模块主要承接 2.1 决策准不准、敢不敢信，并承接 2.2 跟不跟得上产线节拍中的实时判定，与 2.7 长期靠得住中的长链推理自反思协同。

**模块定位**：自主智能体的感知前端与判据生成器。把整柜级 Burn-in 时序、液冷多源传感流、AOI 缺陷影像、工艺图纸、ECN 文本五类异构现场数据，经多模态感知融合转成可被多智能体共用的结构化推理结论，并在结论下发前完成自我评估与后果预演。

**核心能力**：多模态感知融合，把异构现场数据对齐到统一表示空间。长程稀疏事件的多任务联合预测，同时输出失效概率、剩余寿命、故障归因三项。代价敏感的极端事件判据，配套可解释的风险上界与反事实根因假设。物理、数据、知识三元融合的早期未知故障根因推理，把流体物理方程作为先验、把老师傅经验图谱作为知识源、把多源传感时序作为数据驱动通路，三路在表示层做跨模态对齐。决策置信度自评与复核触发，在临界判定区间自动转入人工复核。可在现场逐项质询的判据链。长链推理的自我反思与自我纠错回路，对中间结论做一致性回查与证据再核验。动作执行前依托 World Model 做决策后果的离散事件预演。多模态工艺图纸的视觉语言理解，覆盖鱼骨图、PFD 流程图、光路图、液冷管路图四类。

**关键技术**：把极值理论的流式异常基线、代价敏感学习的损失函数、长程多任务 Transformer 三者联合，再以 PAC-Bayes 风险上界做可信化封装。物理项以 Darcy 流体方程与 Henry 气体溶解度方程为先验，知识图谱以液冷打压老师傅声学谱与振动谱为节点，时序通路承接压力、流量、温度通道，三路在 Cross-Attention 后送入可解释 reasoning head。VLM 走多阶段流水线，区域分割、元件识别、拓扑还原、工艺语义对齐四步，与 PDK 文本、AOI 影像、Burn-in 时序在统一表示空间对齐。长链推理嵌入自反思纠错闭环，在得出最终判定前拦截并修正错误推理链。动作下发前由 World Model 在离散事件层面预演后果并评估影响。

**量化指标**：整柜 Burn-in 失效早筛召回不低于 95%，误杀不超过 1%。灌装在线泄漏与压测密封异常判定响应小于 500 ms 且满足 IEC 61508 SIL-2。未见故障型因果推理可解释覆盖率不低于 80%。工艺图纸视觉解析准确率不低于 85%。出厂判据置信度不低于 99%。模块自身决策延迟在云侧不超过 200 ms、工厂侧不超过 50 ms、工位侧不超过 20 ms。

**落地场景**：C1 整柜 Burn-in 失效早筛、单 SN 全寿命预测、出厂判据；C2 浸没式液冷集成的密封质量预测、灌装/压测在线泄漏与密封异常判定、新故障型因果推理与可审计输出；C5 跨 PDK ASIC 整柜 Burn-in 共享失效早筛模型。

### 4.2 M2 · 知识·记忆·持续学习模块

**对应关键问题**：本模块主要承接 2.4 自主记忆与持续学习，与 2.1 决策准不准、敢不敢信协同。

**模块定位**：自主智能体的知识底盘与经验演化器。让组织级工艺知识从老师傅个人头脑迁移到工厂可累积、可下发、可演化的资产层，让智能体在做每一次推理时都能拿到"工厂这二十年学到的东西"，并在工艺高频变更下持续积累而非每任务归零。

**核心能力**：工业 GraphRAG，在通用 RAG 之上注入工艺、设备、物料、客户、ECN 五类节点的知识图谱版检索增强生成。三层长记忆，会话级承载短期上下文、任务级承载跨班次任务延续、组织级承载跨年度工艺资产沉淀。老师傅隐性知识的对话式溯源与双向回流，智能体出 SOP、老师傅校核、隐性知识增量回流。抗灾难性遗忘的在线持续学习，旧工艺规程能力与新 ECN 在权重里共存。新工艺少样本适配，面向新客户与新工艺在少样本条件之下完成快速自适应建模。

**关键技术**：知识图谱以五类节点、七类边的工业本体为骨架，检索阶段做图谱子图召回与向量召回的混合排序，生成阶段把召回子图作为结构化上下文显式喂入大模型。三层长记忆按层级化记忆架构，会话级以 KV-cache 承载、任务级以向量数据库承载、组织级以图谱、文档、时序混合承载。持续学习在权重更新前由 EWC 项约束重要参数漂移、由 O-LoRA 在低秩子空间承接新增任务、由 Sparse Memory Finetuning 在记忆模块外置长期知识，三者联合应对灾难性遗忘。新工艺适配以元学习与少样本微调，把历史客户工艺知识迁移到新客户首单。

**量化指标**：知识图谱节点数不少于 10 万、边数不少于 50 万。GraphRAG 在工业问答任务上 Top-1 命中率不低于 85%，多跳推理准确率不低于 85%。三层记忆在跨班次任务延续场景下上下文召回 Top-3 命中率不低于 90%。老师傅隐性知识年沉淀量不低于 500 条结构化 SOP。持续学习场景下旧任务遗忘率不超过 8%。组织级记忆年度增长不低于 5000 条结构化工艺资产。新客户首单工艺规程生成周期从 90 天压到 7 天。

**落地场景**：C1 整柜装配工艺规程的 ECN 自动 diff 与下发；C2 液冷打压老师傅口诀沉淀为 SOP 库与 Skill 包；C5 新客户 PDK、ECN、历史规程到 Skill 包的少样本自动合成。

### 4.3 M3 · 协同·规划·编排模块

**对应关键问题**：本模块主要承接 2.3 多智能体协作与编排，并为 2.5 自主行动安全可控提供人机确认闸门。

**模块定位**：自主智能体的协同中枢与任务编排层。把"排产、设备、物料、质量、测试"等多个域的智能体拉到同一张协商桌上，处理跨域决策、资源争抢、任务规划三类协同问题，并把 Agent、Skill、工业 MCP 三层调用栈内化为自身的编排能力。

**核心能力**：多智能体横向协商、共识与冲突仲裁，从主从单向编排升级到水平协商，覆盖资源冲突、数据冲突、决策冲突、优先级冲突四类。四范式任务自主编排，把图谱、对话、SOP、探索四种范式纳入同一套统一框架。无 SOP 自主任务规划与长链分解，面向没有先例的任务自主规划并完成长链条分解。Agent、Skill、工业 MCP 三层编排栈，让模块层只关心决策语义而不关心底层调度。不可逆动作的人机确认闸门，结构化生成意图链、风险链、回滚链三类审批材料，供 M5 调用。

**关键技术**：协商协议层基于 FIPA-ACL 与 Contract Net Protocol 扩展出 MOM 域专用消息 schema，承载工艺、设备、客户、合规四类语义。协商算法层联合 Debate-based Consensus 与 Reflexion 自反思，并训练专门的仲裁智能体；以协商型多智能体强化学习训练域智能体。自主规划层以 HTN 与 Planner 对无先例任务做长链分解。编排层采用有状态图编排，每个节点以 Agent 为基本单元，节点间通过消息总线与协商协议通讯；Agent 层以角色、目标、记忆、工具四元组定义，Skill 层以前提条件、后置条件、安全不变量、System Prompt、SQL 模板、Tool Call 模板六元组定义，工业 MCP 层面向现场异构系统提供标准化工具描述、能力协商、语义对齐，按 2025 年 11 月 MCP 规范的能力协商扩展实施。

**量化指标**：跨域决策一致性不低于 95%，资源冲突仲裁与资深调度员判断一致率不低于 92%。协商型多智能体长链协商不少于 30 步，全链路时延不超过 60 秒。单个 Agent 实例冷启动时间不超过 3 秒。Agent 间协商单轮平均耗时不超过 100 ms。平台支持并发 Agent 实例不少于 500。接入异构工业系统数不少于 50。工业 MCP 工具描述对场景关键工序的覆盖率不低于 90%。

**落地场景**：C1 NVIDIA 主线与多客户转单的产能抢占仲裁；C5 排产、设备、物料、测试四类协商智能体的柔性切换协同与多规范切换编排调度；C2 液冷模组与整柜 Burn-in 共用整柜时段的冲突仲裁。

### 4.4 M4 · 自主工具与自我扩展模块

**对应关键问题**：本模块主要承接 2.6 自主造工具与自我扩展。

**模块定位**：自主智能体的自我扩展引擎。在缺少现成工具时由智能体自主扩展自身能力，把"工具与判定规则全靠人工逐条写死"升级为"按需自主合成、自检后入库"，使新设备与新工艺的接入从月级压到天级。

**核心能力**：自主造工具、写 Skill、写业务代码，覆盖 MES SQL 与业务规则模板的自动生成。工具的自主发现与按任务需要的动态组合调用。自造工具与代码的正确性自检，未通过验证者全部拦截。

**关键技术**：业务代码生成层以 Agentic 代码生成产出 MES SQL 与业务规则。Skill 自动合成层每个 Skill 包以前提条件、后置条件、安全不变量三元组定义，由 SMT 求解器在合成时刻验证在所有执行路径上恒成立。工具发现与组合层对可用工具自主发现并按任务需要动态组合。

**量化指标**：自动合成工具与 Skill 的正确性自检通过率不低于 95%，未通过验证的 100% 拦截。新设备接入从月级压到天级。

**落地场景**：C5 新客户 PDK、ECN、历史规程到 Skill 包与业务代码的自动合成；C1 新增装配工序工具的自主造工具与自检入库；C2 新液冷工艺判定规则的自动生成与形式化验证。

### 4.5 M5 · 自主行动安全可控模块

**对应关键问题**：本模块主要承接 2.5 自主行动安全可控。

**模块定位**：自主智能体行动的安全边界与多客户隔离管控层。让智能体能自主行动的同时，把安全边界从用户级下沉到行为级，把多客户工艺数据与记忆在运行期严格隔离，让高风险不可逆动作必经人机确认。

**核心能力**：智能体行为级访问控制 Sidecar，自动在生成 SQL、工具调用、Skill 调用时注入行级、字段级、影像级隔离约束。多客户工艺数据与记忆的运行期隔离与客户切换时的彻底清场。多客户工业联邦学习，数据不出域，跨客户走联邦参数共享而非数据共享。高风险不可逆动作的人机确认与自动拦截，调用 M3 生成的意图链、风险链、回滚链三链审批材料。

**关键技术**：访问控制层把智能体行为作为最小授权颗粒，由策略 Sidecar 在大模型生成时自动注入隔离约束，并通过一阶逻辑约束求解与模型检查保证不会跨客户泄漏。多客户联邦学习层针对四家客户工艺数据严重非独立同分布的特点，采用客户级差分隐私、FedProx、异构图节点表示三件套，本地训练在客户侧节点完成，仅梯度或参数经差分隐私扰动后上传。安全闸门层把大模型推理的非确定性输出通过置信度门控加安全不变量校验中间层，强制在 PLC 安全锁面前降级为可执行确定性指令；高风险动作必须经人工三链审批方可下发。

**量化指标**：多客户工艺模型联邦学习精度不低于 93%。多客户工艺数据隔离零泄漏可证，跨客户泄漏在形式化验证下不可发生。智能体行为级访问控制误授权率不超过 0.01%。客户切换上下文清场 100%。高风险不可逆动作人工确认覆盖率达到 100%。压测/灌装工序内超压泄压、急停等不可逆设备动作端到端响应小于 500 ms 且满足 IEC 61508 SIL-2。审计日志完整性达到 100%。

**落地场景**：C5 四家超大规模客户工艺日志严格不可见对方但全局缺陷根因模型共享的联邦协同；C2 压测/灌装工序内超压泄压、急停等不可逆设备动作的实时拦截与三链人工审批；C1 NVIDIA 寄售件与多家超大规模客户转单工艺数据的物权隔离。

---

## 五 · 3 层支撑基础设施

### 5.1 S1 · 端云四档协同部署

**对应关键问题**：本支撑主要为 2.2 跟不跟得上产线节拍提供基础设施，承载实时性与跨本体决策一致，并支撑各模块的端侧落地。

**支撑职能**：为 5 模块提供云端、工厂、工位、装备四档载体的部署能力，按延迟、数据敏感度、算力三维约束自动选择部署位置，并在四档本体之间施加决策一致性约束。断网降级时端侧、工位侧、装备侧可自治运行。

**核心组件**：云端 100B 参数级基座大模型，负责全局规划、跨厂复用、Benchmark 评测。工厂 14B 参数级私有化部署模型，负责厂级决策、跨产线协同、合规审计。工位 1.5B 参数级端侧模型，负责工位级实时推理、工艺规程下发、人机交互。装备 350M 参数级嵌入式模型，负责装备级实时控制、安全锁前置过滤。

**关键技术**：模型压缩与适配层面，云端 100B 通过结构化剪枝、蒸馏、量化形成 14B、1.5B、350M 三档下游模型，保持工艺语义不漂移。跨本体一致性层面，在四档载体之间施加决策一致性约束以抑制蒸馏带来的决策漂移。部署层面采用容器化与 Sidecar 模式注入策略引擎与审计采集。断网降级层面，端侧 1.5B 与装备 350M 必须保证在网络中断 30 分钟内的本地自治推理与安全联锁。

**量化指标**：四档载体覆盖率达到 100%。端云协同任务自动卸载决策正确率不低于 95%。装备 350M 在 IEC 61508 SIL-2 合规边界内端到端响应小于 50 ms，工位 1.5B 端到端响应小于 20 ms。工位 1.5B 模型压缩相对工厂 14B 精度衰减不超过 8%。断网降级下端侧自治可持续不少于 30 分钟。

### 5.2 S2 · 工业知识基础设施

**对应关键问题**：本支撑主要为 2.1 决策准不准、敢不敢信与 2.4 自主记忆与持续学习提供底座，并为 2.5 自主行动安全可控中的跨客户知识协同提供共性知识底座。

**支撑职能**：为 M1、M2 等模块提供统一的工业知识层，包括知识图谱、工艺图纸 VLM、三层长记忆三大子系统。

**核心组件**：工业知识图谱，节点覆盖工艺、设备、物料、客户、ECN 五类，边覆盖七类工艺关系。工艺图纸视觉语言模型，覆盖鱼骨图、PFD 流程图、光路图、液冷管路图四类。三层长记忆，分别为会话级、任务级、组织级。

**关键技术**：知识图谱采用图数据库存储与向量索引联合检索，节点与边的本体由领域专家与大模型协同沉淀。VLM 走多阶段流水线。三层记忆按层级化记忆架构组织，会话级以 KV-cache 承载、任务级以向量数据库承载、组织级以图谱、文档、时序混合承载。

**量化指标**：知识图谱节点数不少于 10 万、边数不少于 50 万。VLM 工艺图纸解析准确率不低于 85%。三层记忆在跨班次任务延续场景下上下文召回 Top-3 命中率不低于 90%。组织级记忆年度增长不低于 5000 条结构化工艺资产。

### 5.3 S3 · 可信评估与运行监测

**对应关键问题**：本支撑主要为 2.7 长期靠得住、怎么证明够格提供基础设施，承载可信评估、漂移监测与产线准入。

**支撑职能**：为 5 模块提供面向自主决策的可信评估、长期运行推理质量漂移监测与产线准入评测能力，构成体系内的可信度量底座。

**核心组件**：工业 MOM 智能体可信评估基准，覆盖故障注入、长程任务、对抗输入、安全锁兼容、多客户工艺数据隔离五维。长期运行推理质量漂移监测与回退子系统。产线准入评测子系统。

**关键技术**：可信评估层把任务完成度、结论可追溯性、安全锁兼容性、跨客户隔离性纳入统一评分体系，给出产线准入的量化门槛。漂移监测层以可信度量监控 Sidecar 在每档载体内采样比对，漂移超阈值时触发回退到上一稳定版本。

**量化指标**：连续运行不少于 6 个月推理质量漂移可监测可回退。Benchmark 覆盖 C1、C2、C5 三场景蓝本，十六维指标，任务数不少于 1000。

> 说明：S3 是可信评估能力在体系内的归属，L5 行业溢出层仍将该 Benchmark 作为公共品对外发布，两者并不矛盾。

---

## 六 · 3 场景示范应用

### 6.1 C1 · AI 服务器整柜总装-Burn-in-出货

**场景概述**：聚焦 NVIDIA GB200/GB300 NVL72 整柜在深圳观澜与昆山产线的最后 200 米，覆盖从托盘与基板装配、液冷快接到整柜系统级 Burn-in 与出厂测试的全工序链。工业富联在 NVL72 基板组装环节 2025 年全球市占在 45% 到 48% 之间；GB300 在 2026 年预估出货 8 万到 8.5 万套，工业富联占其中约 45%；单柜 ASP 接近 300 万美元，单柜 130 kW 满载 Burn-in，年化在役失效率约 9%。

**模块与支撑层落地**：M1 承担整柜 Burn-in 失效早筛、单 SN 全寿命预测、出厂判据；M2 承担装配工艺规程的 ECN 自动 diff 与图谱沉淀，并把 5000 根铜背板 NVLink 的工艺图纸与公差预算沉淀进工业知识图谱；M3 承担 NVIDIA 主线与多客户转单的产能抢占仲裁与编排，并承接 5 类装配 Agent；M5 承担 NVIDIA 寄售件与多家超大规模客户转单工艺数据的物权隔离。S1 在工厂 14B 与工位 1.5B 两档承接 Burn-in 故障早期识别。S2 承接工艺图纸 VLM、公差预算图谱与组织级记忆。

**关键 KPI**：整柜 Burn-in 失效早筛召回不低于 95%，误杀不超过 1%。整柜 debug 时间相对 2025 年基线缩短不少于 30%。出厂判据置信度不低于 99%。单 SN 全寿命预测在役 RMA 早筛准确率不低于 90%。

**里程碑**：Y1 完成 NVL72 整柜 Burn-in 时序数据采集与 M1 模块首版训练。Y2 完成 M1 在观澜产线试运行不少于 100 整柜验证。Y3 完成 M1 在 GB300 量产线常态化运行不少于 300 整柜。

### 6.2 C2 · 整柜浸没式液冷集成质量预测

**场景概述**：聚焦鸿佰科技主导的 GB300 浸没式液冷整柜全套液冷模组的集成、灌装、密封、压力测试、出厂质量预测工艺段。鸿佰为全球独家承担 GB300 浸没式液冷整柜的集成代工，液冷整柜 PUE 目标 1.05，单柜 130 kW 散热、3D-TVC 相变、密封零缺陷；液冷打压、光纤对位、铜缆铺设三类工艺八成依赖少数老师傅。

**模块与支撑层落地**：M1 承担浸没式液冷集成的密封质量预测、灌装/压测在线泄漏与密封异常判定、新故障型因果推理与可审计输出；M2 承担液冷打压老师傅口诀的沉淀与 Skill 化；M3 承担液冷模组与整柜 Burn-in 共用整柜时段的冲突仲裁与编排，并承接 4 类液冷工艺 Agent；M5 承担压测/灌装工序内超压泄压、急停等不可逆设备动作的人机确认与三链审批。S1 在工位 1.5B 与装备 350M 两档承接压测工序的超压在线响应与设备联锁。S2 承接液冷管路图与 PFD 流程图的 VLM 解读。

**关键 KPI**：灌装在线密封异常与压测在线泄漏判定响应小于 500 ms 且满足 IEC 61508 SIL-2。浸没式液冷整柜出厂质量预测可解释覆盖率不低于 80%。液冷打压老师傅隐性知识沉淀不低于 200 条结构化 SOP。冷板平整度与导热硅脂均匀度联合异常召回不低于 92%。

**里程碑**：Y1 完成液冷压力柜、流量计、声学探头、振动探头四类传感的全量数据采集与 M1 三元融合首版。Y2 完成灌装/压测在线泄漏判定与超压在线响应及设备联锁在鸿佰深圳液冷模组产线试运行。Y3 完成 GB300 量产线液冷整柜集成质量预测常态化运行不少于 200 柜。

### 6.3 C5 · ASIC 服务器多客户工艺切换

**场景概述**：聚焦工业富联给四家超大规模客户的服务器代工业务，覆盖 TPU、Trainium、MTIA、Maia 四条 ASIC 产品线，每家客户从 PDK、封装、散热、电源到 Burn-in 配方、出厂测试脚本与 OCP 规范全套不同。工业富联 2025 年高端 AI 服务器市占约 38%；某主力超大规模客户的服务器订单 2025 年同比增长 150%；2026 年 ASIC 服务器出货同比增长 44.6%；ASIC 量产爬坡分 pre-PVT 周级、PVT 双周级、MP 月级三阶段，工艺迭代速度比 GPU 平台快三到四倍。

**模块与支撑层落地**：M3 承担排产、设备、物料、测试四类协商型 Agent 的协商与 OCP 多规范切换调度、产能矩阵匹配，并承接这四类协商 Agent；M4 承担新客户 PDK 到工艺规程的 Skill 自主合成；M5 承担四客户工艺日志严格不可见对方但全局缺陷根因模型不低于 93% 精度的隔离与联邦协同；M2 承担新客户少样本适配与首单工艺规程 D+7 合成；M1 承担跨 PDK ASIC 整柜 Burn-in 共享失效早筛模型。S1 承接云端 100B 与工厂 14B 两档的联邦学习载体。S3 承接四客户共线的可信评测，并接入四家客户 PDK 的异构图节点表示与 OCP 规范库。

**关键 KPI**：OCP 多规范切换 8 到 12 小时压到 2 到 4 小时。新客户首单工艺规程 90 天压到 7 天。跨客户工艺模型联邦学习精度不低于 93%。跨客户泄漏在形式化验证下不可发生。客户验厂通过率不低于 90%。

**里程碑**：Y1 完成四客户工艺日志的数据隔离基线与 M4 联邦学习首版。Y2 完成 M4 协商型多智能体调度在柔性产线试运行。Y3 完成多客户 SKU 切换在量产线常态化运行不少于 50 次。

---

## 七 · 关键技术攻关清单

模块层与支撑层的研发对象，落到具体的关键技术上，按新架构的 5 模块组织成"自主感知推理决策、知识记忆持续学习、协同规划编排、自主工具、安全隔离"五个技术族，再加上归属 S3 可信评估与运行监测的评估族，共整理出 15 条核心攻关，构成本项目的算法骨干。

### 7.1 自主感知推理决策族（M1）

**T-01 极值理论与代价敏感学习联合的零漏检判据**：把极值理论的流式异常基线与代价敏感学习的不对称损失函数联合到一个统一判据，并引入 PAC-Bayes 风险上界作为可信化封装，覆盖整柜 Burn-in 长程稀疏失效场景。

**T-02 长程稀疏事件多任务联合预测**：在 48 到 72 小时 Burn-in 长程时序、负样本极稀的设定下，设计多任务联合学习损失与不确定性校准机制，同时输出失效概率、剩余寿命、故障归因三项可解释结论。

**T-03 物理-数据-知识三元融合的未见故障推理**：把流体物理方程（Darcy 与 Henry）作为先验项、把老师傅声学谱与振动谱组织成知识图谱节点、把多源传感时序作为数据驱动通路，三路在 Cross-Attention 之后送入可解释 reasoning head，覆盖浸没式液冷新故障型推理。

**T-04 工艺图纸视觉语言理解**：鱼骨图、PFD 流程图、光路图、液冷管路图四类工业图纸的多阶段视觉语言流水线，区域分割、元件识别、拓扑还原、工艺语义对齐四步，与 PDK 文本、AOI 影像、Burn-in 时序在统一表示空间对齐。

### 7.2 知识记忆持续学习族（M2）

**T-05 工业 GraphRAG**：工艺、设备、物料、客户、ECN 五类节点、七类边的工业知识图谱本体；图谱子图召回与向量召回混合排序；召回子图作为结构化上下文显式喂入大模型。

**T-06 三层长记忆**：会话级 KV-cache、任务级向量数据库、组织级图谱与文档与时序混合承载，三层之间以工单或批次为天然分区避免上下文爆炸。

**T-07 抗灾难性遗忘的在线持续学习**：EWC 重要参数约束、O-LoRA 低秩子空间承接、Sparse Memory Finetuning 外置长期知识，三技术栈联合应对 ECN 高频迭代下的灾难性遗忘。

### 7.3 协同规划编排族（M3）

**T-10 协商型多智能体强化学习**：排产、设备、物料、测试四类智能体在 FIPA-ACL 协商协议之上以协商型强化学习训练，奖励函数耦合切换时间、能耗、客户优先级、合规约束四项；训练专门的仲裁智能体处理冲突，并支撑无 SOP 任务的自主规划与长链分解，以及 Agent、Skill、工业 MCP 三层调用栈的有状态图编排。

### 7.4 自主工具族（M4）

**T-09 形式化可验证的 Skill 自动合成**：每个 Skill 包以前提条件、后置条件、安全不变量三元组定义，由 SMT 求解器在合成时刻验证在所有执行路径上恒成立；未通过验证的 Skill 100% 拦截。配套 Agentic 业务代码生成产出 MES SQL 与业务规则，以及可用工具的自主发现与按任务需要的动态组合。

### 7.5 安全隔离族（M5）

**T-08 硬实时约束下的非确定性—确定性协同**：大模型推理的非确定性输出通过置信度门控加安全不变量校验中间层，强制在 PLC SIL-2 安全锁面前降级为确定性指令；高风险动作经意图链、风险链、回滚链三链人工审批方可下发。

**T-11 多客户工业联邦学习**：客户级差分隐私、FedProx、异构图 GraphSAGE 跨 PDK 节点表示三件套，跨客户走联邦参数共享而非数据共享；本地训练在客户侧节点完成，仅梯度或参数经差分隐私扰动后上传。

**T-12 Agent 行为级访问控制与形式化验证**：把智能体行为作为最小授权颗粒，大模型生成 SQL、工具调用、Skill 调用时由策略 Sidecar 自动注入行级、字段级、影像级隔离约束，并通过一阶逻辑约束求解与模型检查保证不会跨客户泄漏。

### 7.6 可信评估族（S3）

**T-13 自主决策可信评估与产线准入基准**：面向自主决策智能体建立可量化的可信评估方法，把任务完成度、结论可追溯性、安全锁兼容性、跨客户隔离性纳入统一评分体系，给出产线准入的量化门槛，承接二章 2.7 可信评估与准入基准。

**T-14 长期运行推理质量漂移监测与回退**：对连续运行不少于 6 个月的智能体推理质量做在线漂移监测，以可信度量监控 Sidecar 在每档载体内采样比对，漂移超阈值时触发回退到上一稳定版本，承接二章 2.7 推理质量长期漂移。

**T-15 长链推理自我反思与自我纠错**：在长链推理过程之中嵌入自我反思与自我纠错闭环，对中间结论做一致性回查与证据再核验，在得出最终判定前拦截并修正错误推理链，承接二章 2.7 长链推理自我反思纠错。

---

## 八 · 数据源头与数据治理

### 8.1 数据形态

项目可用数据按"现场感知、生产执行、客户工艺、组织知识"四类组织。现场感知类包含 Burn-in 站功率与温度时序、液冷压力流量声学振动多模态时序、AOI 缺陷影像、整柜机械装配公差点云。生产执行类包含 MES 工单、SCADA 联锁日志、PLC 控制日志、出厂测试报告。客户工艺类包含 NVIDIA 寄售件物权日志、四家超大规模客户 ASIC 的 PDK 文档与工艺规程、各家 OCP 规范文本。组织知识类包含 ECN 历史、老师傅口诀沉淀、工艺图纸库。

### 8.2 数据规模目标

四档清点本项目期内可形成的数据资产。MOM 领域语料不低于 20B token，覆盖中英文工艺文档、维修案例、SOP、行业规程。业务事件轨迹不低于 50 万条，单条对应一次质量异常或一次设备故障的完整跨系统操作序列。MOM 任务对样本不低于 10 万条，配对自然语言指令到业务操作序列。工艺图纸视觉结构化标注样本不低于 2 万张，覆盖鱼骨图、流程图、电气图、液冷管路图。

### 8.3 数据接入与治理流水线

数据按四类来源分流接入并进入治理流水线：业务现场层经工业 MCP 适配器统一拉取传感时序与执行日志；客户工艺类经多客户工艺数据隔离层进入分客户数据空间；组织知识类经知识抽取流水线沉淀到工业知识图谱与三层长记忆；外部公开语料经合规清洗与去重进入预训练池。所有数据进入下游模型训练前经过去重、脱敏、质量过滤、长度过滤、毒性过滤五道治理工序。

---

## 九 · 现有工作基础

### 9.1 灯塔工厂与产业资源

工业富联是 WEF 全球灯塔工厂网络第 11 批入选企业；深圳观澜灯塔工厂是全球首座精密金属加工"熄灯工厂"，已部署 AI 视觉与 3D 点云缺陷检测达到 99.97% 准确率；龙华研发总部为集团全球运筹暨制造总部与研发中心；鸿佰科技深圳龙华液冷模组产线承担 GB300 浸没式液冷整柜全球独家代工。三个产业基础构成项目在三场景示范的真实落地条件。

### 9.2 现有 MOMClaw 工业智能体平台

申报单位已建成名为 MOMClaw 的工厂大脑型工业智能体平台，目前已支撑灯塔工厂多个 MOM 业务场景的端到端编排与监控。

平台架构按"Agent、Skill、工业 MCP"三层组织。Agent 层以 Factory Brain 工厂大脑为中枢，下挂九个域智能体，分别为 Quality Agent、Quality Defect Root Cause Analysis Agent、Humanoid Robot Agent、Equipment Failure Response Agent、Automation Agent、Incoming Material Quality Analysis Agent、Equipment Maintenance Assistant Agent、Order Analysis Agent、Logistics Agent。每个域智能体内部又按 Master 与 Sub 主从结构编排，例如 Quality Agent 作为 Master 调度 Quality Defect Root Cause Analysis Agent 与 Humanoid Robot Agent 两个 Sub。Skill 层承载具体可执行能力，例如 Quality Defect Classification、MES Data Collection、Root Cause Analysis of Quality Anomalies、Query Idle Robots、Robot Control、Equipment Point Query、Equipment Fault Diagnosis、Repair Work Order Creation、Equipment Control Execution。工业 MCP 层把 Skill 映射到底层异构工业系统，目前已接入 mes_production、mes_work_order、scada_control、query_idle_robots、robot_control 等多类工业系统的数据库与 API。

平台前端已上线 Panorama 编排全景图、Chat 对话、Skills 技能管理、MCP 工具管理、Agents 智能体管理、Knowledge 知识库、Scheduled Tasks 定时任务、Token Usage 计量、Users 权限九类核心 UI 模块。Panorama 提供工厂大脑与域智能体的可视化拓扑，单击任一 Agent 即可下钻查看其 Agent、Skill、MCP 三层架构、主从调度关系、底层 API 与数据库映射。

MOMClaw 已实现工程层的基础闭环：Agent 编排、Skill 版本管理、工业 MCP 异构系统接入、Token 与 Job 计量审计。本项目以 MOMClaw 平台为基础底座，在其上升级出 M1 至 M5 五模块能力，并补齐 S1 端云四档协同部署、S2 工业知识基础设施、S3 可信评估与运行监测三层支撑。具体而言，把现有的主从单向编排升级为 M3 的多智能体横向协商与编排，把通用 RAG 升级为 M2 的工业 GraphRAG，把全云端部署升级为 S1 的端云四档协同，新增 M4 的自主造工具与 Skill 自合成，新增 M5 的行为级隔离，并把 Token 与 Job 日志升级为四链可审计证据。

### 9.3 中山大学 SAM Lab 学术积累

中山大学 SAM Lab 在工业 AI 评估学、多智能体强化学习、联邦学习与差分隐私、形式化方法四个方向有持续学术积累，多次承担国家级与省部级科研任务，团队博士与硕士研究生 30 人以上，过去承担过国家自然科学基金、广东省重大、深圳市基础研究等项目，与工业富联存在长期合作基础。

---

## 十 · 行业溢出

### 10.1 工业 MOM 智能体可信 Benchmark v1.0

学界首发的工业 MOM 多智能体可信性评测集，覆盖 C1、C2、C5 三场景蓝本、五大场景、十六维指标、任务数不少于 1000，包含故障注入、长 horizon 任务、对抗输入、安全锁兼容、跨客户泄漏五类评测维度。Benchmark 与开源核心组件一同对外发布，配套发表 SCI 一区或 JCR Q1 期刊论文不少于 1 篇。

### 10.2 团体与行业标准

牵头制定团体标准不少于 2 项，覆盖"AI 服务器整柜制造多智能体协同框架"与"工业 MOM 智能体可信性评估方法"两个方向。推动行业标准立项不少于 1 项，覆盖"多客户工业联邦学习与四链可审计证据"方向。

### 10.3 开源核心组件

开源 Agent、Skill、工业 MCP 三层编排栈，工业 GraphRAG 检索引擎，四链证据采集 Sidecar，Benchmark v1.0 评测脚手架四类核心组件，以 Apache 2.0 或 MIT 许可证发布。

---

## 十一 · 创新点

本项目的创新统领在两条主线：一是多智能体协同与自主决策框架，二是支撑自主决策智能体在高端制造现场可靠运行的工业 harness 工程。自主编排与协商、工具自主调用与自动合成、跨班次跨产线长记忆管理、行为级安全闸门、评估与漂移监测，是任何智能体系统的必备底座；工业 harness 的独特性不在这些通用能力，而在它必须同时扛住制造现场的工业特化六约束，并据此把三项工程范式做工业特化、叠加角色职责分离与双岗复核（详见 11.3）。大模型在其中作为底层组件，本身不构成创新点；下列理论、技术、工程与场景四类创新，均归在上述两条主线之下展开。

### 11.1 理论方法创新

提出极端代价不对称下的工业可信判据理论，把极值理论、代价敏感学习、长程多任务、PAC-Bayes 风险上界统一到工业判据骨架。提出物理-数据-知识三元融合的未见故障推理方法，让智能体在训练集从未见过的故障型上仍能给出可审计的因果推理结论。提出隐性工艺知识双向显式化与形式化可验证 Skill 合成的工艺演化闭环。提出硬实时约束下非确定性大模型推理与确定性安全锁的协同机制，作为自主智能体上产线的安全 harness。

### 11.2 关键技术创新

物理项、知识图谱、时序数据三元融合的早期未知故障推理。智能体行为级自动注入隔离约束并形式化验证不会跨客户泄漏的访问控制机制。EWC、O-LoRA、Sparse Memory Finetuning 三技术栈联合的抗灾难性遗忘在线持续学习。协商型多智能体强化学习与 OCP 规范库与产线能力矩阵的柔性切换调度。

### 11.3 工程系统创新

构建一套支撑自主决策智能体在高端制造现场可靠运行的工业 harness 工程。自主编排与协商、工具自主调用与自动合成、跨班次跨产线长记忆管理、行为级安全闸门、长期运行评估与漂移监测，是任何智能体系统的必备底座，本项目将其整合为同一套系统级支架；但工程系统创新的独特内核，不在这套通用底座，而在工业现场硬约束下的工程特化。

工业 harness 的独特性，由制造现场的六类硬约束界定，每类约束对应一条工程解法。

| 工业硬约束 | 现场样态 | 工程解法 |
|---|---|---|
| 硬实时节拍 | 亚秒级跟产线，不是离线长任务 | 推理时计算自适应调度，难任务深推、简单快答 |
| 不可逆物理动作 | 停线、泄压、出货放行错了撤不回 | 安全闸门 + 角色职责分离的双岗复核 + 人机确认 |
| 可追溯担责 | 单台百万级资产，决策须可质询、可审计、能担责 | 评估驱动 + 判据链 + 独立审核 |
| 高频工艺变更 | 十八个月一代叠加周级 ECN | 上下文工程动态注入最新工艺 + 持续学习不遗忘 |
| 现场数据边界 | 多客户工艺有边界、数据不出域 | 行为级隔离作为工程约束 |
| 算力与连接受限 | 工位与装备端算力弱、会断网 | 端云四档 + 断网自治 |

围绕这六约束，本项目把三项工程范式做工业特化。一是上下文工程，把工艺图谱、标准作业程序、实时传感与历史决策结构化喂入推理，而非堆文档检索。二是推理时计算自适应调度，按任务难度与风险动态分配推理深度与算力。三是评估驱动，以工业可信评估基准驱动开发迭代与产线准入。在此之上叠加角色职责分离与双岗复核：执行与审核角色分离，高风险动作必经双岗复核与独立审核，契合制造业既有的双岗与独立质检传统。

上述六约束特化的工程载体，覆盖 M3 内化的 Agent、Skill、工业 MCP 三层编排栈、S1 端云四档协同部署、S2 工业知识基础设施、S3 可信评估与运行监测及其工业 MOM 智能体可信 Benchmark v1.0，在三场景示范层完成真实落地。

### 11.4 应用场景创新

浸没式液冷整柜集成质量在线预测与压测工序内安全联锁、ASIC 多客户共线零信任协同与 OCP 多规范切换两个场景为全球首次工业落地。整柜 Burn-in 失效早筛把整柜级金融资产质量主线从批级统计良率判定细化到单 SN 全寿命的质量管控。

---

## 十二 · 申报组合分工

富泰华工业（深圳）牵头负责项目总体组织、产业落地、三场景示范、产业化推广，承接真实工艺数据接入、MOMClaw 平台向 M1 至 M5 五模块与 S1 至 S3 三层支撑的工程扩展、三场景示范运行与 KPI 验证。中山大学 SAM Lab 协作承担 5 模块核心算法与学术贡献产出，承接 15 条关键技术攻关、SCI 一区或 JCR Q1 期刊论文撰写、行业溢出层的 Benchmark、标准、开源组件牵头编制。双方建立每周对齐与每月评审的联合工作机制。

---

## 十三 · 三年实施路径

### 13.1 Y1（2026 年 6 月至 2027 年 5 月）· 平台底座与首场景启动

M3 完成 MOMClaw 平台向 Agent、Skill、工业 MCP 三层调用栈的工程化扩展，接入异构工业系统不少于 20 类。S1 端云四档协同部署四档载体首版上线。S2 工业知识基础设施完成知识图谱首版不少于 5 万节点。M1 模块首版覆盖 C1 整柜 Burn-in 失效早筛。M2 模块首版覆盖工业 GraphRAG 与三层长记忆。C1 在观澜产线完成不少于 100 整柜的试运行数据采集。C2 在鸿佰深圳液冷模组产线完成液冷压力柜、流量计、声学探头、振动探头的全量传感接入。S3 完成可信 Benchmark v1.0 设计文档，团体标准立项申请完成。

### 13.2 Y2（2027 年 6 月至 2028 年 5 月）· 多智能体协同与柔性切换攻坚

M3 模块完成多智能体横向协商、无 SOP 自主规划、OCP 多规范切换调度与 OCP 规范库覆盖不少于五家客户首版。M4 模块完成形式化可验证的 Skill 自动合成与 Agentic 业务代码生成首版。M5 模块完成四家超大规模客户工艺数据隔离基线、联邦学习首版、智能体行为级访问控制形式化验证、不可逆动作三链人工审批。C2 浸没式液冷集成质量预测与压测工序内安全联锁在鸿佰深圳液冷模组产线试运行不少于 50 柜。C5 多客户 SKU 切换在柔性产线试运行不少于 20 次。S3 可信 Benchmark v1.0 alpha 版对外发布，第一项团体标准定稿，首篇 SCI 一区或 JCR Q1 期刊论文投稿。

### 13.3 Y3（2028 年 6 月至 2029 年 5 月）· 量产常态化与行业溢出

M1 至 M5 五模块在量产线常态化运行验证，S3 可信评估与运行监测完成连续 6 个月推理质量漂移监测与回退闭环。C1 在 GB300 量产线常态化运行不少于 300 整柜。C2 在 GB300 浸没式液冷量产线常态化运行不少于 200 柜。C5 多客户 SKU 切换常态化运行不少于 50 次。Benchmark v1.0 正式版发布，两项团体标准发布，一项行业标准立项，开源核心组件首版发布，累计 SCI 一区或 JCR Q1 期刊论文不少于 5 篇。

---

## 十四 · 成果目标与经济社会效益

### 14.1 学术成果

SCI 一区或 JCR Q1 期刊论文累计不少于 5 篇，SCI 与 EI 论文累计不少于 15 篇。工业 MOM 智能体可信 Benchmark v1.0 学界首发。申请发明专利不少于 8 项，授权不少于 5 项，含 PCT 不少于 2 项。专利、软著、实用新型累计不少于 15 项。

### 14.2 产业成果

项目期内累计销售收入不少于 8000 万元，来自三场景示范驱动的整柜增产、液冷模组扩产、ASIC 多客户切换效率提升带来的产能增量。三场景示范累计运行不少于 500 小时。客户验厂通过率不低于 90%。新客户首单工艺规程生成周期从 90 天压到 7 天，等效一年多承接 1 到 2 个客户首单。

### 14.3 社会效益

牵头制定团体标准不少于 2 项，推动行业标准立项不少于 1 项。开源核心组件不少于 4 类。联合培养硕博研究生不少于 10 名，培养工业 AI 工程师不少于 30 名。带动深圳本地 AI 服务器产业链上下游协同企业不少于 20 家。

---

## 十五 · 与同领域 2025 已立项错位

深圳市 2025 年重点产业研发计划已立项课题中，涉及智能体方向的主要分布在具身智能、城市认知智能体、交叉口指挥管控、风电运维、卫星链路五个赛道，全部属于跨任务场景的具身或感知场景。本项目在四个层面与之结构性错位。

**场景错位**：本项目聚焦制造运营管理的认知层，不碰具身、城市、卫星等场景。

**对象错位**：本项目锚定 AI 服务器整柜制造的真实多客户、多 SKU、多规范量产场景，依托工业富联在该领域的实际产能与市占（2025 年 NVL72 基板组装环节全球市占约 45% 至 48%、高端 AI 服务器市占约 38%）形成的产业基础。"四不碰"的差异化原则贯穿全项目：不碰本体、不碰毫秒级运动控制、不碰视-力-触多模态、不碰物理操作，纯软件 MOM 业务推理脑。

**科学问题错位**：本项目聚焦整柜质量早筛、浸没式液冷整柜集成质量预测、工艺规程沉淀、多客户工艺协同、多 OCP 柔性切换、智能体可信验证等工业关键问题，与具身机器人、交通指挥、卫星感知的科学问题完全异构。

**交付物错位**：本项目交付物含工业 MOM 智能体可信 Benchmark 与多客户工业联邦学习行业标准，是面向工业 AI 评估学与多客户工艺数据治理的公共品，已立项课题不涉及。

---

## 十六 · 风险与应对

### 16.1 技术风险

物理-数据-知识三元融合 reasoning head 的收敛与可解释性可能不及预期。应对：保留物理项、知识图谱、时序通路三条单路径作为退化基线，三元融合不收敛时降级为最优单路径。Agent 行为级形式化访问控制的状态爆炸风险。应对：采用属性域抽象与 SMT 求解器超时熔断双重机制，超时则降级为细粒度白名单。协商型多智能体强化学习训练不稳定。应对：以专家规则为冷启动策略，强化学习训练在专家规则之上做增量。

### 16.2 数据风险

老师傅隐性知识沉淀依赖人工配合度。应对：采用对话式溯源与工艺产出物溯源双轨制，降低对单一老师傅配合度的依赖。Burn-in 长程时序数据采集通道扩展可能滞后。应对：在 Y1 末完成压力柜、流量计、声学探头、振动探头四类传感的全量接入，留出 Y2 至 Y3 算法迭代窗口。三场景示范数据量级在 Y1 末未达预期。应对：以离散事件仿真合成长尾故障路径与切换场景做样本补全。

### 16.3 进度风险

三场景示范节奏与客户量产排期冲突。应对：三场景按主战、强相关、共用三档耦合编排，单场景延期不阻塞其他场景。S1 端云四档载体的精度漂移。应对：在每档载体内置可信度量监控 Sidecar，精度漂移超阈值自动回退到上一档。Benchmark v1.0 评测任务集构造工作量超出预期。应对：以 C1、C2、C5 三场景蓝本切分任务族，第一年完成 30%、第二年完成 70%、第三年完成 100%。

---

## 十七 · 预算结构

500 万元财政档按"人员、设备、外协、材料、其他"五类切分。

| 类别 | 金额（万元） | 占比 | 主要用途 |
|---|---|---|---|
| 人员费 | 220 | 44% | 双方研发人员、工程师、研究生联合培养 |
| 设备费 | 100 | 20% | 端云四档载体、传感扩展、Burn-in 数据采集 |
| 外协费 | 80 | 16% | 标准立项、形式化验证工具、Benchmark 云资源、安全完整性认证咨询 |
| 材料费 | 50 | 10% | 三场景示范运行耗材、液冷工质、传感探头 |
| 其他 | 50 | 10% | 会议、差旅、知识产权、出版、不可预见 |
| 合计 | 500 | 100% | — |

---

## 附录 A · 与"五、3 智能体"指南 17 关键词速查映射

| # | 指南关键词 | 强弱 | 对应关键问题段 | 主对应模块 / 支撑 / 场景 | 对位说明 |
|---|---|---|---|---|---|
| 1 | 通用智能体 | 强 | 2.6 + 2.4 | M3 + M2 | Agent → Skill → 工业 MCP 三层编排栈 + 工业 GraphRAG |
| 2 | 专用智能体 | 强 | 2.1 + 2.3 + 2.5 | M1 + M3 + M5 | 感知、协同、安全隔离三类领域智能体 |
| 3 | 端侧智能体 | 强 | 2.2 | S1 工位 1.5B + 装备 350M | 工位与装备两档端侧载体 |
| 4 | 企业级智能体 | 强 | 2.5 + 2.7 | S1 工厂 14B + M5 | 工厂私有化部署 + 多客户工艺数据治理 |
| 5 | 多模态感知融合 | 强 | 2.1 | M1 + S2 | 三元融合 + 工艺图纸 VLM |
| 6 | 自然语言处理 | 强 | 2.4 | M2 | ECN 自然语言到工艺规程 diff |
| 7 | 环境交互 | 强 | 2.3 | M3 工业 MCP | 工业 MCP 接入 50 类以上异构工业系统 |
| 8 | 自主学习 | 强 | 2.4 | M2 | 抗灾难性遗忘的在线持续学习 |
| 9 | 决策推理 | 强 | 2.1 + 2.3 | M1 + M3 | 可信工业判据与协商型决策 |
| 10 | 工具调用 | 强 | 2.6 | M4 + M3 | Skill 自动合成与工业 MCP 工具调用 |
| 11 | 动态适应 | 强 | 2.6 + 2.4 | M3 + M2 | OCP 多规范柔性切换 + 工艺持续学习 |
| 12 | 情感计算 | 弱 | — | — | 工业 MOM 场景不引入 |
| 13 | 记忆储存与管理 | 强 | 2.4 | S2 三层记忆 | 会话、任务、组织三层长记忆 |
| 14 | 跨任务跨场景跨本体 | 强 | 2.4 + 2.2 | M5 + S1 | 多客户工艺切换 + 端云跨本体 |
| 15 | 安全可信 | 强 | 2.7 + 2.5 | M1 + M5 | PAC-Bayes 风险上界 + 三链人工审批 |
| 16 | 数据管理与隐私保护 | 强 | 2.5 | M5 | 多客户工业联邦学习 + 客户级差分隐私 |
| 17 | 智能体网络安全 | 强 | 2.5 | M5 + M3 | 智能体行为级访问控制 + 不可逆动作审批 |

17 个关键词中 16 个强相关，1 个明文不引入；每个强相关关键词都映射到二章 7 类关键问题中的至少一项，构成"指南关键词 → 关键问题 → 模块/支撑"的三层贯通。

---

## 附录 B · 5 模块 × 3 场景 × 3 支撑 × 17 关键词四维矩阵

### B.1 模块 × 场景

| | C1 整柜 Burn-in | C2 浸没式液冷 | C5 ASIC 多客户 |
|---|---|---|---|
| M1 自主感知推理决策 | 主战 | 主战 | 强相关 |
| M2 知识记忆持续学习 | 主战 | 强相关 | 强相关 |
| M3 协同规划编排 | 强相关 | 主战 | 主战 |
| M4 自主工具与自我扩展 | 共用 | 共用 | 主战 |
| M5 自主行动安全可控 | 强相关 | 强相关 | 主战 |

### B.2 模块 × 支撑

| | S1 端云四档部署 | S2 工业知识基础设施 | S3 可信评估与运行监测 |
|---|---|---|---|
| M1 自主感知推理决策 | 四档全用 | 重度依赖 | 被评估 |
| M2 知识记忆持续学习 | 工厂 + 云 | 重度依赖 | 被评估 |
| M3 协同规划编排 | 工厂 + 工位 | 调用 | 被评估 |
| M4 自主工具与自我扩展 | 工厂 + 云 | 调用 | 被评估 |
| M5 自主行动安全可控 | 四档全用 | 调用 | 被评估 |

### B.3 场景 × 支撑

| | S1 端云四档部署 | S2 工业知识基础设施 | S3 可信评估与运行监测 |
|---|---|---|---|
| C1 整柜 Burn-in | 工厂 + 工位 | 公差预算图谱 | 出厂判据准入 |
| C2 浸没式液冷 | 工位 + 装备 | 管路图与 PFD VLM | 安全锁兼容评测 |
| C5 ASIC 多客户 | 云 + 工厂 | PDK 异构图与 OCP 规范库 | 多客户共线评测 |

### B.4 模块 × 关键词高频映射

| 模块 | 强映射关键词 |
|---|---|
| M1 自主感知推理决策 | 决策推理、多模态感知融合、安全可信、自主学习 |
| M2 知识记忆持续学习 | 自然语言处理、记忆储存与管理、自主学习、动态适应 |
| M3 协同规划编排 | 专用智能体、通用智能体、决策推理、环境交互、工具调用 |
| M4 自主工具与自我扩展 | 工具调用、动态适应 |
| M5 自主行动安全可控 | 安全可信、数据管理与隐私保护、智能体网络安全、企业级智能体、跨任务跨场景跨本体 |

四维矩阵显示，M1 至 M5 五模块在三场景上互补无重叠，与三层支撑形成"四档全用、重度依赖、调用、被评估"多档耦合，对 17 个指南关键词形成全覆盖（除情感计算 1 项明确不引入）。