总述:工业 AI 回归任务全景与近年趋势
在工业 4.0 与智能制造的浪潮下,人工智能(AI)正在深度重塑制造业的每一个环节。其中,回归任务——即根据输入变量预测连续数值型输出——是工业 AI 最为核心和广泛的应用形态之一。与分类任务(如故障检测)不同,回归任务关注的是"值"的精确估计:一个设备还能运行多久?一片晶圆的膜厚是多少?一个产品的关键质量指标是什么?
纵观近两年文献,工业 AI 中的回归任务主要涵盖以下几大方向:
剩余使用寿命 (RUL) 预测
预测设备从当前状态到功能失效还剩余多少使用时间,是预测性维护的核心
虚拟量测 (Virtual Metrology)
利用设备传感器和工艺参数预测半导体等行业中难以实时测量的质量指标
软测量 (Soft Sensor)
用数学模型替代昂贵的物理传感器,实时估计流程工业中的关键质量变量
加工表面质量预测
预测 CNC 加工中的表面粗糙度、形状误差等,实现在线质量控制
此外,制造业质量保证 (QA) 中涉及大量回归子任务(如缺陷率预测、良率建模、工艺参数优化),以及晶圆制造中的良率预测、故障检测回归模型等,都构成了工业 AI 回归任务的重要拼图。
近两年(2024–2025)的关键趋势
图神经网络 (GNN) 在时序回归中的崛起
GNN 用于 RUL 预测的论文数量在 2022 年后呈指数增长,能够同时捕获传感器间的空间关系和时间依赖性,突破了传统 CNN/LSTM 仅建模时序信息的局限。
深度学习主导软测量与虚拟量测
DL 算法在软测量研究中占比已达 56%,从特征提取、缺失标签补全到端到端预测全面渗透。CNN-LSTM 混合架构、GAN 数据增强成为高频方案。
迁移学习成为应对数据稀缺的核心策略
面对工况漂移、跨设备部署、新产品冷启动等工业场景,迁移学习(含域自适应、预训练微调、知识蒸馏)论文数量急剧增长,成为提升模型泛化能力的关键技术。
物理信息融合的混合建模范式
PINN(物理信息神经网络)将物理方程嵌入损失函数,在数据有限时显著提升可解释性和准确性;机理模型+数据模型的混合范式在 RUL、表面质量等领域被广泛验证。
Transformer 架构向工业领域渗透
自注意力机制在长程时序依赖建模上展现优势,Transformer 及其变体被逐步引入 RUL 预测、过程监控等领域,挑战传统 RNN 架构的主导地位。
剩余使用寿命 (RUL) 预测
论文 ①:A Survey on Graph Neural Networks for Remaining Useful Life Prediction
该论文是首篇系统性综述 GNN 在 RUL 预测中应用的工作,涵盖 2020–2024 年间的大量文献。核心贡献在于提出了一个四阶段分类法(Taxonomy),将 GNN 适配 RUL 预测的过程拆解为:
| 阶段 | 核心问题 | 关键技术 |
|---|---|---|
| 图构建 (Graph Construction) | 如何将多传感器时序数据转化为图结构? | 多通道节点定义、通道扩展、单通道→频域/统计特征节点 |
| 图建模 (Graph Models) | 如何在图上传播空间信息? | 谱卷积 (ChebNet, GCN)、空间卷积 (GAT, GraphSAGE) |
| 图信息 (Graph Information) | 如何同时利用时空信息? | 顺序、并行、集成三种时空融合策略 |
| 图读出 (Graph ReadOut) | 如何从节点特征聚合出图级 RUL 预测? | 堆叠读出、池化读出(注意力池化、Top-k 池化等) |
展开:谱卷积 vs 空间卷积 —— 图建模的两大流派
谱卷积 (Spectral Convolution) —— "先变换到频域,再滤波"
(节点特征)
变换到频域
学习滤波器参数
回到空间域
- ChebNet:用切比雪夫多项式近似频域滤波器,避免了昂贵的特征分解。K 阶多项式 = 能"看到" K 跳远的邻居信息。Zhang et al. 首次将其用于 RUL 预测。
- GCN:ChebNet 的极简版本(只看 1 跳邻居),计算高效,是 RUL-GNN 中使用最广泛的模型。核心操作可理解为:每个节点的新特征 = 自身特征与邻居特征的加权平均,再经过一层线性变换 + 激活函数。
- 过平滑问题:GCN 层数太多时,所有节点的特征会趋于一致(类似反复搅拌颜料最终变成一个颜色)。应对策略:跳跃连接、残差连接、多尺度拼接。
优势:有图信号处理的数学理论支撑,擅长捕获全局结构。劣势:频域变换计算量大,对大规模图不友好。
空间卷积 (Spatial Convolution) —— "直接在图上聚合邻居"
N1, N2, N3...
求和 / 加权 / 注意力
融合自身+邻居信息
- MPNN (消息传递网络):通用框架。每个节点向邻居"发消息"、"收消息",然后用收到的信息更新自己。灵活性最高,是大多数空间 GNN 的理论基础。
- GAT (图注意力网络):聚合邻居时不一视同仁,而是通过注意力机制自动学习每个邻居的重要程度——类似"听取多人意见时,更重视专家的观点"。多头注意力进一步稳定训练。
优势:可扩展性好、适应动态图、局部操作效率高。劣势:缺乏频域的理论可解释性,可能过拟合局部噪声。
一图对比
| 谱卷积 | 空间卷积 | |
|---|---|---|
| 核心思路 | 变换到频域 → 滤波 → 变换回来 | 直接聚合邻居节点信息 |
| 代表模型 | ChebNet, GCN | MPNN, GAT, GraphSAGE |
| 信息范围 | 全局(频域天然全局) | 局部(逐跳扩展) |
| 计算效率 | 较低(需特征分解) | 较高(仅邻域操作) |
| RUL 中主流 | GCN(简化后高效) | GAT(自适应权重) |
展望:论文指出,将谱卷积的全局视野与空间卷积的局部灵活性结合,是 GNN-RUL 的一个有价值的方向。
展开:顺序、并行、集成 —— 三种时空信息融合策略
① 顺序策略 (Sequential) —— "先看一个维度,再看另一个"
最主流的方案,空间和时间信息由不同模块依次处理。
空间优先:
原始数据
每个时间步内
提取空间关系
跨时间步
建模时序演化
时间优先:
原始数据
先提取每个
传感器的时间特征
基于时间特征
构图并提取空间关系
还可以交替堆叠多层(如 TCN→GCN→TCN→GCN...),迭代细化时空特征。
优势:实现简单、模块可独立优化。劣势:分开处理可能遗漏时空交互信息,处理顺序引入偏置。
② 并行策略 (Parallel) —— "两条线同时跑,最后汇合"
原始数据
捕获空间关系
捕获时间依赖
交叉注意力等
预测
优势:同时捕获两种信息,可学习更复杂的交互特征。劣势:计算/内存开销翻倍,双分支融合策略设计有挑战。
③ 集成策略 (Integrated) —— "一个模块同时搞定时空"
原始数据
如:GRU 内嵌 GCN
或转置注意力
或全连接时空图
- GRU 内嵌 GCN:把 GRU 内部的线性层替换成图卷积——每一步状态更新时,同时看到邻居的空间信息和上一步的时间信息
- 转置注意力:同一个特征矩阵,先沿时间维度做注意力,再转置后沿空间维度做注意力,一个模型捕获两种信息
- 全连接时空图:把所有时间步 × 所有传感器节点构成一张大图,一次性卷积处理
优势:联合建模时空依赖,特征最丰富。劣势:大图/长时序下可扩展性差,实现复杂度高。
三种策略速览
| 策略 | 实现思路 | 复杂度 | 信息捕获 |
|---|---|---|---|
| 顺序 | 空间→时间 或 时间→空间 | 低 | 可能遗漏交互 |
| 并行 | 双分支同时 → 融合 | 中 | 较完整 |
| 集成 | 单一模块统一处理 | 高 | 最丰富 |
展开:堆叠读出 vs 池化读出 —— 从节点到图级预测
堆叠读出 (Stacking ReadOut) —— "所有人的成绩全部列出来"
特征
特征
特征
特征
→ RUL
- 可以只拼接最后一层,也可以跨多层拼接(类似既看最终成绩又看中间过程)
- 变体:求和或取均值替代拼接来降低维度
优势:保留所有节点信息,实现简单。劣势:特征维度随节点数线性增长,大图上计算昂贵;无法捕获层次结构。
池化读出 (Pooling ReadOut) —— "选出关键代表,逐层浓缩"
保留重要节点
(N' < N)
→ RUL
- SAGPool:用 GNN 为每个节点打"重要性分数",只保留分数最高的 Top-k 个节点,组成更小的子图继续学习
- DiffPool:不是"删节点"而是"合并节点"——学习一个软分配方案,把 N 个节点聚类成 N' 个"超级节点",每个超级节点代表一组相似传感器
- EdgePool:从边的角度操作——过滤弱连接的边来间接合并节点,加速计算
优势:有效降维,能捕获层次结构信息。劣势:池化过程不可避免地丢失部分节点信息。
怎么选?
| 堆叠读出 | 池化读出 | |
|---|---|---|
| 策略 | 全部拼接("一个不落") | 选择性保留("抓重点") |
| 信息保留 | 完整 | 有损但更紧凑 |
| 计算成本 | 随节点数增长 | 层次压缩后更低 |
| 适合场景 | 传感器少、每个都重要 | 传感器多、存在冗余 |
- 边构建方法:度量法(余弦相似度、点积、皮尔逊相关、高斯核)、注意力法、先验知识法;Top-k/KNN 过滤弱连接可提升效果
- 开放挑战:缺失通道下的图建模、图的可迁移性(跨工况/跨设备)、GNN 的可解释性
- 单通道场景:通过 STFT 频域展开或统计特征提取将单传感器信号扩展为多节点图,已取得可观效果
论文 ②:A Comprehensive Overview of RUL Prediction: From Traditional Literature Review to Scientometric Analysis
该论文融合了传统方法综述与基于 CiteSpace 的科学计量分析(3442 篇 WoS 文献),从全景视角梳理了 RUL 预测的三大范式:
| 范式 | 核心思路 | 优势 | 局限 |
|---|---|---|---|
| 基于模型 | 利用物理退化方程(Paris 定律、Archard 磨损模型、卡尔曼滤波) | 可解释性强,物理意义明确 | 依赖专家知识,复杂系统适应性差 |
| 数据驱动 | SVM、GPR、ANN、CNN、RNN/LSTM | 灵活、可扩展,适合大数据 | 需大量标注数据,缺乏可解释性 |
| 混合方法 | 物理+数据融合(PINN、粒子滤波+NN) | 兼顾精度与可解释性 | 实现复杂度高,需精心融合 |
- RUL 预测流程:数据采集 → 健康指标构建(物理 HI / 虚拟 HI)→ 健康阶段划分 → RUL 预测
- 趋势:从简单模型堆叠走向物理知识深度融合(PINN)、跨域迁移、图结构建模
- 开源工具:PyTorch、TensorFlow 为主要框架;GNN_RUL_Benchmarking 等开源库推动可复现研究
展开:粒子滤波 + 神经网络 —— RUL 混合预测方法
为什么需要混合方法?
可解释但僵化
依赖专家知识
灵活但黑箱
依赖大量数据
兼顾精度+可解释性
+数据效率
粒子滤波 (PF) —— "用一群粒子投票预测未来"
采样初始状态
按退化方程
向前传播
用实际观测数据
调整粒子权重
统计到达时间
(自带不确定性)
优势:输出完整概率分布,天然支持不确定性量化。局限:依赖预定义的退化方程——复杂系统中这个方程往往写不出来。
PF + NN 的四种融合范式
| 融合方式 | 核心思路 | 代表工作 |
|---|---|---|
| NN 替代退化方程 | 用神经网络学出状态转移模型,替代手工物理方程,保留 PF 的贝叶斯推断框架 | Wu et al. (2019) |
| NN 提取特征 → PF 预测 | 先用 CNN/LSTM 从原始信号中提取健康指标 (HI),再用 PF 对 HI 的退化轨迹做概率预测 | 多种 CNN-PF 组合 |
| GPR + PF | 高斯过程回归提供退化趋势+不确定性,PF 在此基础上做状态估计和 RUL 推断 | Li & Xu (2015) |
| 优化算法增强 PF | 用 Levy 飞行等优化算法提升 PF 的采样效率,再与 LSTM 结合 | Zhang et al. (2021) |
PINN:另一条物理-数据融合路线
损失 = 数据误差 + 物理约束惩罚
符合物理规律
PINN 不需要显式的退化方程驱动粒子,而是在训练时把物理规律当作额外约束——网络预测如果违反物理定律就会被惩罚。效果:数据需求更少、泛化性更强、可解释性更好。
两条路线对比
| PF + NN | PINN | |
|---|---|---|
| 物理知识融入方式 | 作为 PF 的状态转移方程 | 嵌入损失函数作为约束 |
| 输出形式 | 概率分布(天然不确定性) | 点估计(需额外方法量化不确定性) |
| 数据需求 | 中等 | 较低(物理约束补偿数据不足) |
| 实现复杂度 | 高(需维护粒子集+NN) | 中等(标准 NN + 特殊损失函数) |
趋势:从简单的模型堆叠走向物理知识的深度融合——两条路线正在汇聚,共同推动物理-数据协同范式的成熟。
工业质量预测与软测量
在工业制造中,"产品质量好不好"往往需要依赖昂贵、耗时的离线检测才能知道。质量预测和软测量的目标是一致的:用容易获取的过程数据(传感器信号、工艺参数)去实时估计那些难以直接测量的质量指标。这一思路贯穿半导体虚拟量测、流程工业软测量、以及制造业 QA 中的回归子任务。本节将分两个子方向展开:虚拟量测(VM)聚焦半导体制造,软测量与制造质量保证覆盖流程工业及更广泛的制造领域。
3.1 虚拟量测 (Virtual Metrology)
虚拟量测(VM)是半导体制造中的核心回归任务:用设备传感器数据和工艺参数预测晶圆的关键质量指标(膜厚、蚀刻深度、材料去除率等),替代昂贵的物理检测。近两年 VM 研究呈现出三大趋势:
- 半监督 / 自监督学习:标注数据(物理检测结果)昂贵且稀缺,研究者开始利用大量无标签的工艺过程数据进行预训练或协同训练,从而在极少量标签下建立高精度 VM 模型
- 不确定性量化 (UQ) 与动态采样:不仅预测质量值,还量化"预测有多可信"——当不确定性高时触发物理检测,低时跳过,实现智能采样调度
- 多模态分布建模:晶圆制造的多批次、多工序特性导致数据呈现多模态分布,单一模型难以覆盖——分层学习架构通过先分类后回归来适配不同模态
以下先回顾一篇系统性综述建立整体认知,再逐一展开四篇最新研究论文的算法架构。
论文 ③:Virtual Metrology in Semiconductor Manufacturing: Current Status and Future Prospects
这是半导体虚拟量测(VM)领域首篇系统性综述(分析 150 篇文献),覆盖 CMP、光刻、刻蚀、CVD/PVD 四大核心工艺。VM 的本质是一个回归问题:用设备传感器变量和工艺参数预测晶圆的关键质量指标(如材料去除率 MRR、刻蚀深度、薄膜厚度等)。
算法生态:
- 神经网络(CNN、ELM)和 SVR 是最主流的 VM 预测模型,PLS 作为降维+预测的经典方案仍被广泛使用
- CNN-GPR 组合在多阶段时序数据上表现优异(CNN 降维 + GPR 不确定性量化)
- VM 关键词网络显示:"virtual metrology" 与 "regression" 节点最为接近,印证了 VM 本质上是回归任务
- 可靠性指数 (Reliance Index, RI) 被提出用于量化 VM 预测的可信度,指导何时信任 VM 何时做物理测量
挑战:跨腔体/跨设备泛化、工艺漂移下的模型更新、少样本学习、模型可解释性。
论文 ④:S2GA-VM: Self-Supervised and Global-Aware Virtual Metrology for Accurate Film Thickness Prediction
该论文提出 S2GA-VM 框架,针对 CVD 薄膜厚度预测中标签极度稀缺(每批仅 2–3 片晶圆做物理检测)的核心痛点,融合自监督预训练、随机门控特征选择和全局感知表征学习三大创新。在三套工业 HDP-CVD 数据集(17000+ 片晶圆)上超越 25 种 SOTA 模型。
三阶段流水线:
自监督预训练
有监督微调
+ 随机门控
全局感知
表征学习
- 自监督预训练:利用无标签晶圆数据,挑选与目标高度相关的特征做 K-Means 聚类生成伪标签,构造与下游回归任务"结构相似"的预训练任务——不需要真实检测数据就能学到有意义的特征表示
- 随机门控特征选择 (Stochastic Gating):每个特征通道附加一个可学习的门控概率,训练时随机关闭不重要的特征。效果类似 Dropout 但作用在特征维度而非神经元维度,自动实现动态特征筛选
- 全局感知表征学习:标准 mini-batch 训练只能看到局部数据关系。S2GA-VM 引入投影空间嵌入——将每个样本投影到全局空间中,捕获跨批次的工艺漂移模式
- 骨干网络:FT-Transformer——专为表格数据设计的 Transformer 变体,用特征 Tokenizer 将每个输入特征转为 token,再用自注意力机制建模特征间交互
论文 ⑤:AMBCT: Adaptive Multi-View Bayesian Co-Training for Semi-Supervised Virtual Metrology
另一条解决标签稀缺问题的路线:半监督协同训练。AMBCT 框架让两个"视角不同"的线性回归模型互相教学——一个看全部特征,一个看最优特征子集,通过贝叶斯迭代互相提供伪标签。
协同训练核心流程:
d 个过程变量
线性回归 f₁
线性回归 f₂
互相教学 →
加权融合
- 自适应视角构建:通过互信息排序,自动选出与目标最相关的特征子集作为第二视角——两个视角既有信息差异(保证互补),又都与目标相关(保证质量)
- 贝叶斯参数优化:两个模型的损失函数包含有标签数据的 MSE 和无标签数据的一致性约束,通过贝叶斯优化联合调参
- CVD 薄膜厚度预测:在实际 CVD 数据上,仅用 10% 标签即可达到 0.246% MAPE,远低于纯监督方法的误差
论文 ⑥:Online Gaussian Process for Dynamic Sampling in Virtual Metrology
该论文提出在线高斯过程(OGP)模型,核心卖点是极少初始数据 + 在线持续更新 + 不确定性驱动的动态采样三位一体。
OGP 工作流程:
~100 个晶圆
均值 + 方差预测
方差 > 阈值 T?
更新模型
节省成本
- 在线核增广:每获得一个新检测数据,只需 O(n) 复杂度即可在线更新 GP 的协方差矩阵和均值函数,无需重训练整个模型
- 漂移追踪:通过引入"时间相邻参考量测"作为动态输入项,补偿抛光垫磨损、修整器更换等造成的 MRR 漂移与跳变
- 七模型基准对比:在 CMP 公开数据集上,OGP 与 MLR、EWMA、ARX、KF、BARX、DLKF 六种传统 VM 方法对比,在数据漂移场景下表现最优
- 动态采样策略:利用预测方差的百分位数作为动态阈值——方差高于阈值则触发检测,否则跳过。工程师可调节阈值以平衡检测成本与模型精度
论文 ⑦:Multimodal Hierarchical Learning for Wafer Yield Prediction
晶圆良率预测面临一个被广泛忽视的问题:由于多批次生产和多工序流转,数据呈现多模态分布(高/中/低良率组的数据分布截然不同)。用单一回归模型覆盖所有模态必然导致高偏差。
分层学习架构:
自适应模态划分
TPE 搜索最优
良率分界点
判断属于
高/中/低模态
- 自适应模态划分:用贝叶斯优化(TPE)自动搜索最优的良率分界点,将样本分为高/中/低三个模态——划分标准不是基于聚类,而是直接优化下游回归性能
- 退化与增量学习机制:模态划分后单个子集样本量可能不足。退化策略将过小的模态合并到相邻模态;增量学习在每个子回归器中逐步引入新样本
- 偏差-方差分析:理论证明当模态分离度 S(D) 增大时,单模型的偏差会显著上升,而分层模型的偏差保持常数——分层结构在多模态场景下有本质优势
3.2 软测量与制造质量保证
与虚拟量测聚焦半导体不同,软测量覆盖石油、化工、钢铁、水泥、水处理等流程工业,制造质量保证则横跨汽车、制药、纺织等离散制造行业。二者共同关注的核心问题依然是:用易测过程变量预测难以实时获取的质量指标。
论文 ⑧:Machine Learning Algorithms for Manufacturing Quality Assurance: A Systematic Review
该综述分析了 300+ 篇文献,对比了五种主流 ML 算法在制造 QA 中不同回归/分类子任务的适用性,并首次提出了跨行业(汽车、半导体、制药、纺织)的比较评估框架。
| 算法 | 最佳应用场景 | 优势 | 局限 |
|---|---|---|---|
| ANN | 图像缺陷检测、复杂非线性回归 | 深度学习能力,高精度 | 需大量数据,可解释性差 |
| SVM/SVR | 预测性维护、工艺参数优化 | 小样本鲁棒、高维适应 | 调参复杂,大数据效率低 |
| Random Forest | 高维传感器数据的故障检测 | 抗过拟合、特征重要性排序 | 实时性受限 |
| Decision Tree | 过程控制(需可解释性场景) | 可解释性强、可处理缺失值 | 易过拟合,精度有限 |
| KNN | 小规模 QA 实现 | 简单有效 | 高维性能退化,依赖距离度量 |
论文 ⑨:Advancements in Soft-Sensor Technologies for Quality Control in Process Manufacturing: A Review
该综述追溯了 2000–2024 年间 107 篇软测量文献,展示了算法、行业和数据需求的完整演进脉络。软测量的核心任务就是回归:用易测过程变量(温度、压力、流量等)预测难以实时获取的质量变量(成分、粘度、强度等)。
算法演进三阶段:
2000–2010:线性方法主导
PLS、PCA、线性回归占 1/3;ANN 开始涉足,GA 等优化算法用于调参
2010–2018:ANN 与 SVM 双雄
ELM、RBF、GRNN 等 ANN 变体兴起;SVM/SVR 在非线性建模中表现突出;集成模型应对多工况挑战
2018–至今:深度学习全面渗透
DL 占比 56%。CNN 用于特征提取与预测、SAE 用于加权特征选择、GAN 用于数据增强和标签生成、LSTM/GRU 处理时序质量预测
- 模型拟合度 R² 从 2000 年的平均 0.74 提升至当前的 0.94
- 多采样率问题是软测量特有的核心挑战:质量标签采样频率远低于过程变量(实验室分析 4–12h vs 传感器秒级采样),DL 通过伪标签生成缓解了这一矛盾
- 石油蒸馏、聚合物、水泥、钢铁是软测量研究最集中的行业;水处理近年增长迅速
- RMSE 仍是最流行的评估指标,但 R² 和 MAPE 更适合跨行业/跨应用的横向对比
展开:软测量覆盖哪些工业场景?—— 五大行业的具体任务
① 石油蒸馏 —— 软测量研究最早、文献最多的行业
炼油厂的蒸馏塔将原油分离成不同馏分(汽油、柴油、煤油等),质量指标需要实验室化验,延迟巨大。
| 典型预测目标 | 含义 | 为什么难以实时测 |
|---|---|---|
| 馏分组成(如 C4 丁烷、C5 汽油含量) | 脱丁烷塔顶/底产品中各组分的浓度 | 需气相色谱分析,每次数小时 |
| 闪点 (Flash Point) | 油品在多高温度下会被点燃,直接关系安全 | 需标准实验室闪点测试 |
| 辛烷值 (Octane Number) | 汽油抗爆性能,影响发动机效率 | 需标准发动机台架测试 |
| 硫含量 | 环保排放指标 | 需化学分析 |
回流量、压力
进料流量/温度
闪点、辛烷值
经典数据集:脱丁烷塔 (Debutanizer) 数据集是软测量领域最常用的 benchmark 之一,被大量论文用来验证算法。
② 聚合物 / 高分子制造 —— 第二大软测量行业
聚合反应过程中需要严格控制产品质量,但关键指标只能离线测量。
| 典型预测目标 | 含义 | 为什么需要软测量 |
|---|---|---|
| 熔融指数 (Melt Index, MI) | 聚合物流动性指标,决定产品等级和用途 | 离线熔体流动速率测试,耗时长 |
| 粘度 (Viscosity) | 反映聚合物分子量和加工性能 | 在线粘度计昂贵且维护困难 |
| 分子量 / 分子量分布 | 决定材料力学性能(强度、韧性等) | 需凝胶渗透色谱 (GPC) 分析 |
| 转化率 | 单体到聚合物的转化程度 | 取样化验 |
催化剂流量
搅拌速度、进料比
粘度、分子量
特殊挑战:聚合反应存在明显的批次间差异(原料批次、催化剂活性波动),是迁移学习在软测量中的重要应用场景。
③ 水泥制造 —— 能耗大户,软测量节能效果显著
水泥回转窑是高温(1400°C+)、高能耗的连续过程,窑内状态极难直接测量。
| 典型预测目标 | 含义 | 为什么重要 |
|---|---|---|
| 游离石灰 (Free Lime, f-CaO) | 熟料中未反应完全的氧化钙含量 | 游离石灰过高 → 水泥体积不稳定 → 建筑安全隐患。但测量需将熟料取样后进行化学分析 |
| 1 天/28 天抗压强度 | 水泥硬化后的力学性能 | 28 天强度需等待 28 天才能测得,1 天强度也需 24h |
| 熟料矿物组成 | C3S、C2S 等矿物相含量 | 影响水泥凝结和强度发展 |
喂料量、风量
煤粉量、转速
抗压强度
实际效益:论文提到,利用软测量预测游离石灰并优化磨机细度,一座水泥窑可实现节能 3%–9.3%——对于高能耗行业这是巨大的成本节约。
④ 钢铁 —— 高温、多工序的连续制造
炼钢过程从铁水预处理到连铸,涉及多个高温工序,直接测量产品质量非常困难。
| 典型预测目标 | 含义 | 场景 |
|---|---|---|
| 钢坯温度 (Billet Temperature) | 连铸出口处钢坯的温度分布 | 影响后续轧制质量,但直接测量受限于高温环境 |
| 钢水成分 | 碳、硅、锰、磷、硫含量 | 转炉炼钢过程中需要快速决策是否补吹 |
| 力学性能 | 抗拉强度、屈服强度、伸长率 | 需要拉伸试验才能测得 |
加料量、冷却水流量
拉坯速度
钢水成分
力学性能
⑤ 水处理 —— 近年增长最快的新兴领域
污水处理厂需要实时监控出水水质,但关键水质指标的化验周期长。
| 典型预测目标 | 含义 | 为什么需要软测量 |
|---|---|---|
| BOD (生化需氧量) | 水中有机污染物含量的核心指标 | 标准测试需 5 天培养(BOD5) |
| COD (化学需氧量) | 水中总还原性物质量 | 需化学消解 + 滴定,耗时数小时 |
| 氨氮、总氮、总磷 | 排放是否达标的关键指标 | 在线分析仪昂贵且需频繁校准维护 |
| 出水浊度、溶解氧 | 工艺控制和出水质量指标 | 虽有在线传感器但漂移严重 |
| 挥发性脂肪酸 (VFA) | 厌氧消化过程的关键监控指标 | 实验室化验 |
溶解氧、温度
曝气量、污泥浓度
氨氮、总氮
出水浊度
特殊挑战:水处理过程受季节性影响巨大(水温、进水水质随季节波动),论文指出按季节分别建模的效果优于全年统一模型,这也是集成学习在该领域流行的原因。
跨行业共性总结
尽管行业不同,软测量面临的核心挑战是相通的:
| 共性挑战 | 表现形式 |
|---|---|
| 多采样率失配 | 过程变量秒级采样 vs 质量标签 4–12h 甚至 28 天 |
| 非线性 | 化学反应、相变等过程天然非线性 |
| 多工况 / 多模态 | 不同产品规格、季节变化、设备老化 → 数据分布漂移 |
| 过程时滞 | 输入变量变化到影响输出质量存在时间延迟 |
加工表面质量预测
表面质量预测本质上也是一种工业质量预测,但与上一节的区别在于:第 3 节的四篇论文侧重通用方法论——从算法演进和建模框架的角度回答"怎么建模";而本节换一个视角,从CNC 机加工的物理机理出发,回答"什么因素决定了表面质量",再在此基础上衔接 AI 方法。行业也从半导体、化工等流程工业,聚焦到了铣削、车削、磨削等离散制造场景。
论文 ⑩:A Review of AI Application for Machining Surface Quality Prediction
该论文从加工机理出发,系统梳理了影响表面质量的两大关键要素及其与 AI 预测方法的衔接,是同类综述中最为"机理驱动"的一篇。
① 刀具中心定位误差:机床几何/运动学误差、热变形、部件磨损、轮廓控制误差 → 影响动态未切削厚度和加工稳定性
② 刀具刃口与工件材料的交互:刀具偏转/跳动/颤振、刀具磨损、切削温度、最小未切削厚度、弹性恢复 → 影响犁切力和表面形貌
AI 建模按输入类型分为三类:
| 建模方式 | 输入数据 | 典型方法 | 优劣 |
|---|---|---|---|
| 基于加工参数 | 转速、进给、切深等 | SVR、RF、ANN | 简单但泛化能力有限 |
| 基于传感器信号 | 力、振动、声发射、电流 | CNN、LSTM、1D-CNN | 信息丰富但特征工程复杂 |
| 混合信息融合 | 参数 + 信号 + 物理模型 | CNN-LSTM、注意力机制、PINN | 最高精度但复杂度大 |
迁移学习赋能工业回归建模
论文 ⑪:Transfer Learning for Soft Sensors in Process Industries: A Review and Future Perspectives
这是迁移学习在流程工业软测量中最新、最全面的综述(186 篇文献),系统梳理了跨域可迁移信息的分类、迁移策略和负迁移缓解机制。
跨域可迁移信息分类:
| 层次 | 可迁移信息类型 | 典型场景 |
|---|---|---|
| 数据层 | 特征分布、样本权重、标签关联 | 新工况下的标签稀缺 |
| 机理层 | 物理约束、工艺知识、退化规律 | 跨设备/跨产线部署 |
主要迁移策略:
- 实例迁移:通过重加权源域样本来匹配目标域分布,适用于分布差异较小的场景
- 特征迁移:学习域不变特征表示(如对抗域适应、MMD 最小化),是当前最主流的方法
- 模型迁移:预训练+微调范式,特别适合深度学习模型在新产线/新条件下的快速部署
- 关系迁移:迁移变量间的关联结构而非单个特征,适用于多变量流程工业场景
- 基准数据集:田纳西-伊斯曼过程 (TEP)、脱丁烷塔 (Debutanizer)、半导体刻蚀过程等
- 未来方向:模型可解释性、动态迁移学习(持续适应)、联邦迁移学习(数据隐私)、大语言模型辅助迁移策略选择
展开:迁移学习的四大主流策略 —— 有哪些玩法?
① 实例迁移 (Instance-based Transfer)
最直觉的方式:从源域中挑选与目标域分布相似的样本,加入目标域训练集。
大量样本
高斯核距离
设阈值 θ 过滤
加入目标域训练集
少量样本
- 代表方法:TrAdaBoost——迭代调整源域样本权重,每轮降低"帮倒忙"的样本的影响
- 适用场景:源域与目标域分布差异较小(如同一设备不同批次)
- 优势:实现简单、可解释性好;劣势:对分布差异大的跨域场景效果有限
② 特征迁移 (Feature-based Transfer) —— 当前最主流
核心思想:学习一个域不变的特征表示空间,使源域和目标域在此空间中"看起来一样"。
两个域的分布
在此空间对齐
(a) MMD (最大均值差异)
- 在再生核希尔伯特空间 (RKHS) 中度量两个分布的均值差异——用核函数将数据映射到高维空间后比较
- 训练方式:在主任务损失(如 MSE)之外,加入 MMD 损失项,让网络在预测准确的同时保持跨域特征对齐
- 多核 MMD:组合多个不同带宽的高斯核,提升对复杂分布差异的捕获能力
- 优势:理论基础扎实,实现简单(只需加一个损失项)。局限:只对齐了边际分布("两群人的整体位置"),忽略了条件分布("同一类别内部的分布")
(b) CORAL (相关性对齐)
- 思路:不看均值,看协方差矩阵——对齐源域和目标域特征的二阶统计量(数据的"形状"和"方向")
- 具体做法:最小化源域与目标域协方差矩阵之间的 Frobenius 范数距离
- 优势:计算高效(只需协方差矩阵运算),特别适合工业场景中以协方差漂移为主的域偏移。局限:只捕获线性关系,对非线性分布差异不敏感
- Deep CORAL 变体将 CORAL 嵌入深度网络中间层,增强非线性对齐能力
(c) 对抗域适应 (Adversarial Domain Adaptation)
(共享参数)
→ 质量值
→ 源 or 目标?
- 代表方法:DANN (Domain-Adversarial Neural Network),通过梯度反转层 (GRL) 实现对抗——域判别器的梯度取反后回传给特征提取器
- 优势:能捕获复杂的非线性分布差异,效果通常优于 MMD 和 CORAL。局限:训练不稳定(和 GAN 一样的问题),需要仔细调参
(d) JMMD (联合最大均值差异)
- MMD 的升级版。普通 MMD 只对齐边际分布(整体分布形状),JMMD 同时对齐条件分布(给定输入 x 时输出 y 的分布)
- 为什么需要?——假设源域和目标域的输入特征分布对齐了,但"相同输入对应不同输出"的问题仍然存在。JMMD 确保特征对齐的同时,输入-输出的映射关系也保持一致
- 论文还提到 CMMD(条件 MMD)和条件 Wasserstein 距离作为进一步精细化条件分布对齐的方法
- 优势:对齐更全面。局限:需要目标域有少量标签来估计条件分布
特征迁移方法速览:
| 方法 | 对齐什么 | 核心机制 | 优势 | 局限 |
|---|---|---|---|---|
| MMD | 边际分布均值 | 核空间均值距离 | 理论扎实、实现简单 | 忽略条件分布 |
| CORAL | 协方差矩阵 | 二阶统计量对齐 | 计算高效 | 仅线性关系 |
| 对抗域适应 | 整体分布 | GAN 式对抗训练 | 非线性能力强 | 训练不稳定 |
| JMMD | 边际+条件分布 | 联合分布度量 | 对齐最全面 | 需少量目标域标签 |
③ 模型迁移 (Model-based Transfer)
"预训练 + 微调"范式。在源域数据上预训练深度模型,然后在目标域少量数据上微调部分或全部参数。
学习通用特征
微调顶层
用目标域少量数据
- 冻结-微调策略:冻结低层特征提取器(通用特征),只微调高层任务相关层
- 知识蒸馏:用大型源域模型(教师)指导小型目标域模型(学生),传递软标签知识
- 参数正则化:微调时加入正则项约束参数不偏离预训练值太远,防止灾难性遗忘
- 适用场景:深度学习模型在新产线/新产品的快速部署
④ 关系迁移 (Relation-based Transfer)
最"高阶"的迁移方式:迁移的不是数据或特征,而是变量间的关联结构/拓扑关系。
- 核心思想:如果源域和目标域的变量间因果关系或关联模式一致(例如"温度升高→粘度降低"这种规律在两个域都成立),可以直接迁移这种结构信息
- 图结构迁移:将变量交互建模为图,迁移图的拓扑结构(哪些变量相互影响)而非节点特征值本身
- 适用场景:样本分布差异大但内部结构(因果关系、变量关联)相似的跨工艺场景
| 策略 | 迁移内容 | 核心方法 | 最佳场景 |
|---|---|---|---|
| 实例迁移 | 源域样本 | TrAdaBoost、样本权重重估 | 分布差异小 |
| 特征迁移 | 域不变特征 | MMD、CORAL、对抗域适应、JMMD | 分布差异大(最主流) |
| 模型迁移 | 模型参数 | 预训练微调、知识蒸馏 | 深度模型快速部署 |
| 关系迁移 | 变量间结构 | 图结构迁移、因果关系迁移 | 结构相似但分布不同 |
负迁移:什么时候"不该迁移"?
当源域与目标域差异过大时,强行迁移反而损害模型性能。论文系统总结了三大缓解策略:
(a) 域相似度预评估 + 选择性迁移
- 思路:迁移之前先"量一量"域间距离——如果距离太远,不迁移比硬迁移更好
- 常用度量:A-distance(训练一个线性分类器区分两个域,分类错误率越高说明两个域越像)、MMD(直接度量分布均值差异)、Wasserstein 距离(最优传输代价)
- 实施方式:设定阈值,只有域间距离低于阈值时才启动迁移;多源域场景下,选择与目标域最相似的源域
(b) 自适应权重分配
- 思路:不是"迁移 or 不迁移"的二选一,而是为每个源域 / 每个源样本自动学习一个权重
- 相关知识权重大、不相关知识权重趋近于零——模型自动决定"从哪里借多少"
- 实现方式:注意力机制(Attention)、元学习(Meta-learning),或基于域相似度的加权方案
- 在多源域迁移(同时从多个旧工况迁移到一个新工况)中尤其重要
(c) 课程学习与渐进迁移
- 思路:模仿人类"由易到难"的学习方式——先用与目标域最相似的源数据训练,逐步引入差异更大的数据
- 第一阶段:只用最相似的源样本建立初始模型(稳定基础)
- 第二阶段:逐步放宽相似度阈值,引入更多样本(扩展知识面)
- 第三阶段:用目标域数据微调(精化到目标任务)
- 避免了一次性引入大量不相似数据造成的"信息冲击"
四类新兴迁移范式
除了上述经典策略,论文还指出了四个正在快速发展的新方向:
(1) 动态迁移 (Dynamic Transfer)
- 问题:传统 TL 假设域是"静态"的,但工业过程随时间持续变化(催化剂失活、设备老化、季节波动),分布漂移是动态的
- 做法:融合时间信息,提取并对齐跨域的动态演化模式而非静态快照。例如:对齐源域和目标域中温度曲线的变化趋势(而不只是温度的平均值)
- 适用:工况频繁切换的连续制造过程(如炼油、化工反应器)
(2) 图结构迁移 (Graph-based Transfer)
- 问题:特征对齐方法假设变量之间是独立的,忽略了变量间的交互结构
- 做法:将过程变量建模为图(节点=变量,边=变量间关联),迁移图的拓扑结构——即使节点特征分布不同,如果两个域的变量关联模式(哪些变量影响哪些变量)相似,就可以迁移这种结构
- 优势:对数据分布差异大但因果机理相似的跨工艺场景特别有效
(3) 物理信息迁移 (Physics-informed Transfer)
- 问题:纯数据驱动的迁移缺乏"为什么要这样迁移"的理论指导
- 做法:将工艺机理知识(物理方程、化学反应动力学、热力学约束)作为跨域不变的先验,嵌入迁移过程。物理规律不会因为换了一台设备就改变——它是天然的"域不变知识"
- 与 PINN 的联系:可以将物理约束嵌入特征提取器或损失函数中,确保迁移后的模型仍然遵守物理定律
- 优势:即使源域和目标域在数据层面差异巨大,物理层面的一致性仍然能引导有效迁移
(4) 联邦迁移学习 (Federated Transfer Learning)
- 问题:不同工厂/产线的数据因商业机密和数据隐私无法直接共享——无法像传统 TL 那样集中所有数据训练
- 做法:结合联邦学习框架——各工厂在本地训练模型,只上传模型参数/梯度到中央服务器聚合,数据始终留在本地。在此基础上加入域适应机制,实现跨工厂的知识迁移
- 流程:各工厂本地训练 → 上传模型参数 → 服务器聚合(含域对齐)→ 下发更新后的全局模型 → 各工厂本地微调 → 迭代
- 意义:这是工业 AI 大规模落地的关键基础设施——跨企业、跨产线的知识复用在保护商业秘密前提下成为可能
总结:全局视角与未来研究方向
将上述十一篇论文的视角叠加起来,我们可以绘制出工业 AI 回归任务的全局图景:
从全局视角看到的共性规律
- RUL、虚拟量测、软测量——本质上是同一类问题:三者的计算范式高度一致——都是时序回归,都是根据历史序列信息和当前输入预测一个连续值(剩余寿命 / 膜厚 / 组分浓度),都要面对分布漂移(设备退化、工况切换、原料批次变化导致数据分布随时间改变)。区别只是预测目标和行业术语不同。这意味着一个领域的方法论突破,往往可以直接迁移到另一个领域。
- 异常监测与在线自适应是部署后的核心需求:模型上线后,生产环境不断变化——新工况出现、设备老化、工艺微调。单纯的离线训练模型会逐渐失效。因此,异常监测(实时检测输入数据是否偏离训练分布,判断模型预测是否可信)和基于新到来样本的在线微调(对新样本赋予更高权重、对旧样本逐步衰减,使模型持续适应当前工况)正成为工业 AI 回归系统闭环部署的关键环节。这一需求在 VM 的"性能追踪"模块、软测量的"集成模型按工况切换"、以及 RUL 中的"自适应粒子滤波"中都已有雏形,但尚未形成系统化的解决方案。
- 可解释性与可信度是落地部署的"最后一公里":VM 的 Reliance Index、GPR 的不确定性量化、PINN 的物理约束——工业场景对"为什么模型这么预测"和"这个预测有多可信"有刚性需求,纯黑箱模型难以被工程师信任。
值得进一步探索的方向与研究空白
- ① 统一的工业回归 Benchmark 体系:当前各领域(RUL、VM、软测量等)的数据集和评估指标相互割裂,缺乏跨任务/跨行业的标准化对比框架。建立类似 NLP 中 GLUE 的工业回归 Benchmark 是亟需填补的空白。
- ② Transformer 架构在工业回归中的适配:Transformer 天生为序列到序列的分类/生成任务设计(如 NLP 中的 token 分类、机器翻译),其核心组件在迁移到连续值回归任务时存在根本性的适配缺口。例如:标准位置编码(正弦/余弦或可学习)反映的是 token 的离散序列位置,而工业时序数据的"位置"往往对应不等间隔的物理时间、设备运行周期或退化阶段——为工业回归定制位置编码(如基于退化阶段的连续编码、基于物理时钟的非均匀编码)是一个待发掘的方向。此外,Transformer 依赖大规模数据预训练才能发挥优势,而工业回归数据集规模差异极大(从几百条到数万条),如何修改 Transformer 架构使其在小数据集上依然有效(如引入归纳偏置、结合先验知识约束注意力范围、轻量化注意力机制)同样亟需系统性研究。本文论文 ④ 中 FT-Transformer 在 VM 表格数据上的成功应用已展示了初步可行性,但远未成熟。
- ③ 大模型 (Foundation Models) 在工业回归中的潜力:预训练时序 Foundation Model(如 TimesFM、Chronos)能否直接应用于工业回归?是否需要领域适配?目前尚处于萌芽阶段。
- ④ 物理信息与深度学习的深度融合:PINN 目前主要用于 RUL 场景,在软测量和 VM 中的系统性应用几乎空白。如何将工艺机理嵌入复杂 DL 架构(而非仅加入损失函数约束)仍是开放问题。
- ⑤ 轻量化模型与边缘部署:DL 模型的算力需求与工业现场边缘设备的资源限制之间存在矛盾。模型压缩、知识蒸馏、TinyML 在工业回归中的应用需要更多关注。
- ⑥ 不确定性量化的系统化:Monte Carlo Dropout、贝叶斯推断、共形预测(Conformal Prediction)等方法在工业回归中的系统性集成和实际效用验证仍然不足。
参考文献列表
- Wang, Y., Wu, M., Li, X., Xie, L., & Chen, Z. (2025). A survey on graph neural networks for remaining useful life prediction: Methodologies, evaluation and future trends. Mechanical Systems and Signal Processing, 229, 112449.
- Liu, Y., Wen, J., & Wang, G. (2025). A comprehensive overview of remaining useful life prediction: From traditional literature review to scientometric analysis. Machine Learning with Applications, 21, 100704.
- Maitra, V., Su, Y., & Shi, J. (2024). Virtual metrology in semiconductor manufacturing: Current status and future prospects. Expert Systems with Applications, 249, 123559.
- Xie, W., Wu, J., Wang, Y., & Chen, Y. (2025). S2GA-VM: Self-supervised and global-aware virtual metrology for accurate film thickness prediction in semiconductor manufacturing. Journal of Intelligent Manufacturing.
- Wu, J., et al. (2026). AMBCT: Adaptive multi-view Bayesian co-training for semi-supervised virtual metrology in CVD processes. Expert Systems with Applications, 302, 130314.
- Han, X., Miller, M., Moyne, J., Vogl, G. W., Penkova, A., & Jia, X. (2025). A comparative study of semiconductor virtual metrology methods and novel algorithmic framework for dynamic sampling. IEEE Transactions on Semiconductor Manufacturing, 38(2), 232–241.
- Chen, Q., Qin, W., & Xu, H. (2025). A multimodal hierarchical learning approach for virtual metrology in semiconductor manufacturing. Journal of Manufacturing Systems, 80, 194–205.
- Kausik, A. K., Rashid, A. B., Baki, R. F., & Maktum, M. M. J. (2025). Machine learning algorithms for manufacturing quality assurance: A systematic review of performance metrics and applications. Array, 26, 100393.
- Gallareta, J. G., González-Menorca, C., Muñoz, P., & Vidak Vasic, M. (2025). Advancements in soft-sensor technologies for quality control in process manufacturing: A review. IEEE Sensors Journal, 25(9), 14575–14588.
- Ko, J. H., & Yin, C. (2026). A review of artificial intelligence application for machining surface quality prediction: From key factors to model development. Journal of Intelligent Manufacturing, 37, 775–798.
- Liu, Y., Zhu, J., Yang, C., Chen, T., Wong, D. S. H., & Yao, Y. (2026). Transfer learning for soft sensors in process industries: A review and future perspectives. Industrial & Engineering Chemistry Research, 65, 8103–8125.