LLM 在化工领域能干活吗?不是写报告那种干活,而是建微分方程模型、拟合实验数据、设计实时控制器这种硬核工程。
这篇论文拿结晶过程当试金石——强非线性、紧约束、群体平衡动力学耦合——让四个 LLM 系统对比三个真实 PSE 任务。选结晶是因为它特别容易让 LLM 翻车。
想象你是化工厂总工,要完成结晶工艺的全套设计。你有四个「实习生」:
自带专业工具箱(Julia 建模语言 + 编译器 + 调试器)。发现 bug 不靠猜——沿着方程图逆向因果追踪,一步步定位根源。写完模型先做「术前检查」:枚举未知数、验证方程-未知数平衡、分类 ODE/DAE。
很聪明,没有专用工具但能用 Python/Julia 写代码。会尝试多种模型结构(Arrhenius-only、secondary-nucleation-only、组合),选最好的。但近饱和区域有时会过拟合——训练集上好看,泛化到新工况就飘。
一个人干所有事。经常一上来就把模型结构定死,不回头检查物理合理性。结果参数数值有时离谱——生长速率 kg 差了 5 个数量级,或者模型预测在近饱和区域发散。
从 247 条 ATR-FTIR 光谱 + 温度 + 溶剂组成 → 预测扑热息痛摩尔分数。所有 LLM 都选了 PCR/PLSR——教科书标配。R² 都接近 1。结论:简单任务,拉不开差距。
这是拉开差距的地方。所有 LLM 恢复了相同的矩量法 PBM 结构:
| 系统 | 验证 R² | 物理一致性 | 参数 kg |
|---|---|---|---|
| Dyad 2.1 | 高 | 最佳(长时间达平衡) | 86.9 |
| Claude Opus 4.6 | 高 | 近饱和有残余漂移 | 6273 |
| ChatGPT 5.2 | 低(μ₀ 严重偏差) | 差 | 2993 |
| Gemini Pro 3 | 低(μ₁ 负 R²) | 差 | 170 |
设计 NMPC 通过调温度控制晶体尺寸 L̄₁₀ 和质量 m。三个 LLM 各自提出调参方案(ChatGPT 模型不准被排除)。Dyad 在 5 个工况中偏差最小且最一致,控制量最保守。所有 NMPC 求解时间都在 1 分钟采样周期内——实时可行。
| 任务 | 最佳 | 核心发现 |
|---|---|---|
| 光谱标定 | Gemini Pro 3 | 教科书问题,都能搞定 |
| 溶解建模 | Dyad 2.1 | 多 Agent 保持高 R²,单 Agent 参数偏差数个量级 |
| 结晶建模 | Claude Opus 4.6 | 多 Agent 预测所有矩量,单 Agent 只对部分有效 |
| 模型更新 | 多 Agent only | 单 Agent 的模型无法迁移到新工况 |
| NMPC 控制 | Dyad 2.1 | 最一致的闭环性能 + 最低控制量 |
亮点:真实实验数据、完整 PSE 闭环、4 系统公平对比、代码全开源、NMPC 实时可行。
局限:只测了结晶(其他单元操作未验证);Dyad 依赖 Julia 生态;多 Agent 交互时间长(~2h vs 单 Agent ~20min);NMPC 只测了 5 个工况。
——一位带了 20 年过程系统工程方向研究生的博导,学生拿着这篇论文走进办公室