AI Chemical Compound Formulation Optimization

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.
Showing 1 of 1 servicesAll 1566 services
AI Chemical Compound Formulation Optimization
Medium
~2-4 weeks
FAQ
AI Development Areas
AI Solution Development Stages
Latest works
  • image_website-b2b-advance_0.png
    B2B ADVANCE company website development
    1214
  • image_web-applications_feedme_466_0.webp
    Development of a web application for FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Website development for BELFINGROUP
    852
  • image_ecommerce_furnoro_435_0.webp
    Development of an online store for the company FURNORO
    1041
  • image_logo-advance_0.png
    B2B Advance company logo design
    561
  • image_crm_enviok_479_0.webp
    Development of a web application for Enviok
    823

AI-оптимизация рецептур и составов химических продуктов

Разработка рецептуры вручную — итерационный процесс: химик изменяет соотношение компонентов, ждёт синтеза и тестирования (дни-недели), интерпретирует результат, делает следующую итерацию. AI сокращает это до нескольких направленных экспериментов.

Где это применяется

Специальная химия, лакокрасочные материалы, клеи и герметики, моющие средства, косметика, полимерные компаунды, смазочные материалы, фармацевтические формуляции, агрохимия. Задача везде одна: найти оптимальный состав из N компонентов при ограничениях на стоимость, экологию, доступность ингредиентов и требованиях к свойствам конечного продукта.

Глубоко: Bayesian Optimization для направленного поиска

Это ключевая техника для оптимизации рецептур, когда каждый эксперимент дорог.

Почему не перебор и не DOE. Full factorial design на 10 компонентах с 5 уровнями — 5^10 ≈ 10 млн экспериментов. Fractional factorial DOE уменьшает это до нескольких сотен, но не учитывает результаты предыдущих экспериментов адаптивно.

Bayesian Optimization строит surrogate модель (чаще всего Gaussian Process) поверхности отклика и использует acquisition function для выбора следующей точки эксперимента. BoTorch (PyTorch) — производственная реализация с поддержкой:

  • Multi-objective BO: несколько целевых свойств одновременно (например, адгезия + вязкость + стоимость); qNEHVI acquisition function строит Pareto-фронт
  • Constrained BO: нельзя превышать концентрацию компонента X, стоимость рецептуры не более Y
  • Batch BO: предлагать K экспериментов одновременно для параллельного синтеза в лаборатории

На реальном кейсе (рецептура эпоксидного адгезива, 8 компонентов, цели: прочность на сдвиг > 20 МПа, удлинение при разрыве > 5%, стоимость < N руб/кг): Bayesian Optimization нашёл Pareto-оптимальные составы за 43 итерации против ~150 в исторических экспериментах по традиционному DOE. Экономия времени разработки — ~8 недель.

Gaussian Process vs. Neural Network surrogate. GP работает хорошо на малых выборках (< 200 точек) и даёт calibrated uncertainty estimates — важно для acquisition function. При >500 точках экспериментальных данных переходим на Deep Ensembles или BNN (Bayesian Neural Network) через Pyro/NumPyro — они лучше масштабируются.

Предсказание свойств по составу: ML-модели

Параллельно с оптимизацией строим предсказательные модели свойств:

Для составов без молекулярной структуры (рецептуры смесей):

  • Входные фичи: концентрации компонентов, их физико-химические свойства (растворимость, плотность, молярная масса)
  • Модели: Gaussian Process, XGBoost/LightGBM, Neural Network с uncertainty quantification
  • Метрики: RMSE, R² на holdout; важна оценка uncertainty для extrapolation detection

Для молекулярных структур (новые индивидуальные вещества):

  • GNN на молекулярном графе (chemprop, D-MPNN)
  • Фичи: конституционные, топологические, геометрические дескрипторы (RDKit → 200+ признаков)

Смешанный подход: рецептура из известных компонентов + новые молекулы — комбинация табличного ML и GNN через ансамблирование или feature concatenation.

Работа с малыми данными

Типичная проблема: 30–80 исторических экспериментов. При этом работает:

  • Transfer learning: предобученный GNN на широком датасете (ChEMBL, NIST) + fine-tune на малой внутренней выборке
  • Active learning: модель сама выбирает, какие эксперименты провести для максимального снижения uncertainty (query by committee или BALD criterion)
  • Data augmentation для составов: физически обоснованные интерполяции (линейные смеси компонентов дают предсказуемое поведение для многих свойств)

Интерфейс для химика-разработчика

ML-инструмент для разработчика рецептур — не чёрный ящик. Обязательные элементы:

  • SHAP для объяснения предсказаний: "компонент А вносит +15% в прочность, компонент B — −8%"
  • Uncertainty display: точки экстраполяции явно помечены, модель говорит "не знаю" в незнакомых областях
  • Constraint builder: визуальный интерфейс для задания ограничений на состав
  • Experiment suggester: следующие N рекомендуемых экспериментов с ожидаемым приростом целевого свойства

Процесс

  1. Сбор исторических данных — лабораторные записи, LIMS-выгрузки, нормализация единиц
  2. Feature engineering — кодирование компонентов, добавление физико-химических дескрипторов
  3. Baseline surrogate model — GP или LightGBM на исторических данных
  4. Active learning loop — предложение экспериментов → синтез → обновление модели
  5. Multi-objective optimization — Pareto-фронт для финального выбора рецептуры
  6. Документация — SHAP-объяснения для R&D отчёта

MVP (один целевой продукт, имеющийся датасет): 6–10 недель. Платформа многопродуктовой оптимизации с active learning interface для лаборатории: 4–8 месяцев.