Improving Process Systems Engineering with Specialized Multi-Agent Large Language Models

paper LLM multi-agent PSE crystallization NMPC
Authors: F.A.R.D. Lima, A. Abdelrehim, A. Bharambe, M. Micluța-Câmpeanu, D. Gandhi, A. Singhvi, V. Bhat, M. Piibeleht, A.R. Secchi, M.B. de Souza Jr., M.E. Leblebici, C. Rackauckas, I.B.R. Nogueira
Source: Chemical Engineering Journal Advances 26 (2026) 101141
Affiliations: NTNU · UFRJ · Julia Computing · KU Leuven · MIT

问题

LLM 在化工领域能干活吗?不是写报告那种干活,而是建微分方程模型、拟合实验数据、设计实时控制器这种硬核工程。

这篇论文拿结晶过程当试金石——强非线性、紧约束、群体平衡动力学耦合——让四个 LLM 系统对比三个真实 PSE 任务。选结晶是因为它特别容易让 LLM 翻车。

翻译

四个实习生做化工设计

想象你是化工厂总工,要完成结晶工艺的全套设计。你有四个「实习生」:

Dyad 2.1(多 Agent + 专用建模语言)

自带专业工具箱(Julia 建模语言 + 编译器 + 调试器)。发现 bug 不靠猜——沿着方程图逆向因果追踪,一步步定位根源。写完模型先做「术前检查」:枚举未知数、验证方程-未知数平衡、分类 ODE/DAE。

Claude Opus 4.6(多 Agent + 通用工具)

很聪明,没有专用工具但能用 Python/Julia 写代码。会尝试多种模型结构(Arrhenius-only、secondary-nucleation-only、组合),选最好的。但近饱和区域有时会过拟合——训练集上好看,泛化到新工况就飘。

ChatGPT 5.2 / Gemini Pro 3(单 Agent)

一个人干所有事。经常一上来就把模型结构定死,不回头检查物理合理性。结果参数数值有时离谱——生长速率 kg 差了 5 个数量级,或者模型预测在近饱和区域发散。

核心发现:多 Agent 把任务拆成子任务(建模 → 验证 → 参数估计),每步有物理约束检查。单 Agent 在一个 prompt 里做所有事,容易「丢掉」物理直觉。

架构

Case 1: 红外光谱标定(软传感器)

从 247 条 ATR-FTIR 光谱 + 温度 + 溶剂组成 → 预测扑热息痛摩尔分数。所有 LLM 都选了 PCR/PLSR——教科书标配。R² 都接近 1。结论:简单任务,拉不开差距。

Case 2: 结晶动力学建模(PBM)

这是拉开差距的地方。所有 LLM 恢复了相同的矩量法 PBM 结构:

dμ₀/dt = B (成核) dμ₁/dt = G·μ₀ (一阶矩) dμ₂/dt = 2G·μ₁ (二阶矩) dμ₃/dt = 3G·μ₂ (三阶矩) dC/dt = -3ρ·kᵥ·G·μ₂ (质量守恒) 关键区别在 B(成核) 和 G(生长) 的表达式
系统验证 R²物理一致性参数 kg
Dyad 2.1最佳(长时间达平衡)86.9
Claude Opus 4.6近饱和有残余漂移6273
ChatGPT 5.2低(μ₀ 严重偏差)2993
Gemini Pro 3低(μ₁ 负 R²)170

Case 3: NMPC 控制器

设计 NMPC 通过调温度控制晶体尺寸 L̄₁₀ 和质量 m。三个 LLM 各自提出调参方案(ChatGPT 模型不准被排除)。Dyad 在 5 个工况中偏差最小且最一致,控制量最保守。所有 NMPC 求解时间都在 1 分钟采样周期内——实时可行

关键结果

任务最佳核心发现
光谱标定Gemini Pro 3教科书问题,都能搞定
溶解建模Dyad 2.1多 Agent 保持高 R²,单 Agent 参数偏差数个量级
结晶建模Claude Opus 4.6多 Agent 预测所有矩量,单 Agent 只对部分有效
模型更新多 Agent only单 Agent 的模型无法迁移到新工况
NMPC 控制Dyad 2.1最一致的闭环性能 + 最低控制量

评价

⚖️ 目前最全面的「LLM 做化工」基准测试——标定→建模→控制的完整 PSE 闭环。多 Agent 系统在需要物理一致性和迭代验证的任务上系统性优于单 Agent。

亮点:真实实验数据、完整 PSE 闭环、4 系统公平对比、代码全开源、NMPC 实时可行。

局限:只测了结晶(其他单元操作未验证);Dyad 依赖 Julia 生态;多 Agent 交互时间长(~2h vs 单 Agent ~20min);NMPC 只测了 5 个工况。

博导审稿

🎓 「来,坐下,把这篇论文跟我聊聊。」

——一位带了 20 年过程系统工程方向研究生的博导,学生拿着这篇论文走进办公室

选题眼光
选题是真问题。LLM 在化工里到底能不能干活?不是写综述说「前景广阔」,而是真刀真枪地建模、拟合、做控制。用结晶当试金石也选得好——强非线性 + 多尺度 + 紧约束,足够难。不过这个问题在 2026 年已经不算新鲜了,胜在做得比较扎实。
方法成熟度
方法论上没有新的算法发明——比的是工程系统的集成能力。Dyad 的亮点在于把建模语言、编译验证、因果调试整合到 Agent 工作流里,这是真正的工程贡献。但对照组的设置有些不公平:Dyad 有专用工具链,通用 LLM 只能用 Python/Julia 裸写,赢了不算太意外。
实验诚意
诚意很足。用了真实的结晶实验数据(不是仿真),三个案例覆盖了 PSE 的标定→建模→控制全流程,还做了模型更新(dataset shift)测试。NMPC 的 5 个工况虽然不多但足以说明问题。代码全开源加分。扣分点:长时域物理一致性测试很好但实验本身没到平衡态,导致一些结论有模糊空间。
写作功力
写得扎实但不够简练。18 页正文里有太多模型方程的罗列——四个 LLM 各自的成核/生长速率表达式全列出来了,信息密度不高。图表质量很好(尤其 Fig.7 的轨迹对比和 Fig.10 的更新前后对比),但文字叙述可以砍掉 30%。
影响力预判
这篇论文会被两个社区引用:做 AI for ChemE 的人会拿它当 benchmark 参考,做 multi-agent 系统的人会用它说明领域特化的重要性。但 Dyad 本身是商业产品(Julia Computing),可能限制学术社区的复现和扩展。3 年后估计 30-50 次引用——不是 landmark 但是 solid reference。
📋 Weak Accept
实验做得扎实、问题真实、比较公平。但方法层面的创新有限——本质是「专用工具链 > 通用 LLM」这个不太意外的结论。如果能补充一个 ablation(比如给通用 LLM 也加上物理验证模块,看差距能缩小多少),就能升到 accept。

一句话总结

多 Agent LLM + 专用建模语言 + 物理约束验证,在过程系统工程的标定/建模/NMPC 全流程上系统性优于单 Agent 通用 LLM——任务越难(非线性越强、约束越紧),差距越大。