AI-моделирование химических реакций
Квантово-химические расчёты дают точные данные об энергии активации и механизме реакции — но DFT-расчёт одной конформации занимает часы. ML-потенциалы и реакционные предикторы закрывают этот разрыв, работая на порядки быстрее при сопоставимой точности.
Задачи, где ML уже превосходит эвристику
Предсказание продуктов реакции. Дан набор реагентов — какие продукты образуются, какой региоселективно предпочтителен? Классические правила Марковникова, Cahn–Ingold–Prelog — не вычислительно масштабируемы.
Предсказание условий реакции. Обратная задача: дана целевая молекула, предложи реагенты, растворитель, температуру, катализатор.
Ускорение квантовой химии. ML-потенциалы (MLFF) предсказывают энергию и силы для молекулярной динамики в 1000–10000x быстрее DFT.
Ретросинтез. Планирование многостадийного синтеза с коммерчески доступными реагентами.
Глубоко: предсказание продуктов реакции через графовые модели
Это наиболее технически зрелая задача, с конкурентными бенчмарками и production-ready решениями.
Формулировка через atom mapping. Реакция — это перераспределение атомов: некоторые связи разрываются, другие образуются. Задача сводится к предсказанию "reaction center" — каких атомов касается трансформация.
Архитecture: Molecular Transformer (Schwaller et al.) — SMILES реагентов конкатенируются с разделителем >, Transformer (похожий на T5) обучается предсказывать SMILES продуктов. На USPTO-480k: Top-1 accuracy ~90.4%.
Ограничение: Transformer работает с SMILES как текстом и может генерировать невалидные молекулы. Альтернатива — WLDN (Weisfeiler-Lehman Difference Networks) и LocalTransform: граф-ориентированные модели, которые явно предсказывают изменения в графе молекулы. Они генерируют только валидные продукты по определению.
Проблема с региоселективностью. Ароматическое нитрование нафталина может давать продукт в позиции 1 или 2. Модель должна не просто предсказать продукт, но и соотношение изомеров. Это требует предсказания relative energy difference через квантово-химические дескрипторы (Fukui coefficients, electrostatic potential maps). Интеграция QM-признаков в GNN через Coulomb Matrix или обученный SchNet-encoder.
ML-потенциалы для молекулярной динамики
Проблема DFT-MD. Симуляция реакции в растворителе требует 10^5–10^6 шагов MD с шагом 0.5–1 фемтосекунда. DFT на каждом шаге — вычислительно нереально.
MLFF (Machine Learning Force Fields) — нейросетевые потенциалы, обученные на DFT-данных:
- ANI (TorchANI) — один из первых; покрывает C, H, N, O достаточно хорошо
- NequIP — equivariant GNN, state-of-the-art на многих бенчмарках
- MACE — быстрее NequIP, хорошее покрытие периодической таблицы
- M3GNet / CHGNet — для твёрдых тел и материалов с поддержкой кристаллических структур
Процесс обучения: DFT-расчёты через ORCA или VASP → датасет (энергии + градиенты + stress tensors) → обучение MLFF → валидация на holdout DFT данных (MAE по силам < 50 meV/Å — типичный критерий качества).
На практике (моделирование реакции ацилирования в ацетонитриле): MACE-MLFF воспроизводит свободную энергию активации ΔG‡ с ошибкой ~1.2 kcal/mol от reference CCSD(T) при ускорении расчёта в 8000x.
Ретросинтетическое планирование
Tree search + reaction model. AiZynthFinder (MIT/AstraZeneca, open-source) использует MCTS для поиска ретросинтетических путей, используя шаблоны реакций или Molecular Transformer в обратном режиме.
Обучение без шаблонов. GraphRetro, Retrosim — модели предсказывают synthons (фрагменты обрыва) напрямую как граф-трансформацию без фиксированных шаблонов. Покрытие шире, но интерпретируемость ниже.
Практический workflow: целевая молекула → AiZynthFinder (5–50 путей за секунды) → фильтрация по коммерческой доступности реагентов (Sigma-Aldrich / Enamine API) → scoring путей по длине, стоимости реагентов, предсказанным выходам.
Стек
| Задача | Инструменты |
|---|---|
| Reaction prediction | Molecular Transformer, LocalTransform, RXNMapper |
| Retrosynthesis | AiZynthFinder, ASKCOS, RXN4Chemistry |
| MLFF | NequIP, MACE, TorchANI, M3GNet |
| MD engine | OpenMM, LAMMPS, ASE |
| QM reference | ORCA, Psi4, xTB (semi-empirical) |
| Молекулярная графика | PyTorch Geometric, DGL-LifeSci |
Сроки
MVP предсказания продуктов реакции на готовом датасете (USPTO или внутренние данные): 8–12 недель. Обучение кастомного MLFF на домен-специфичных DFT-данных: 3–6 месяцев (включая время DFT-расчётов).







