AI Chemical Compound Formulation Optimization

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.

8+Years of workmore info 900+Completed projectsmore info 100+In house employeesmore info 19+Partnersmore info

Offered services

Showing 1 of 1 servicesAll 1566 services

Medium

~2-4 weeks

FAQ

AI Development Areas

Discuss your AI project

Free consultation — we'll show you how AI can solve your challenge

Get a quote

We'll estimate the budget and timeline for your AI project

AI Solution Development Stages

Latest works

B2B ADVANCE company website development
1214
Development of a web application for FEEDME
1161
Website development for BELFINGROUP
852
Development of an online store for the company FURNORO
1041
B2B Advance company logo design
561
Development of a web application for Enviok
823

Show more works

AI-оптимизация рецептур и составов химических продуктов

Разработка рецептуры вручную — итерационный процесс: химик изменяет соотношение компонентов, ждёт синтеза и тестирования (дни-недели), интерпретирует результат, делает следующую итерацию. AI сокращает это до нескольких направленных экспериментов.

Где это применяется

Специальная химия, лакокрасочные материалы, клеи и герметики, моющие средства, косметика, полимерные компаунды, смазочные материалы, фармацевтические формуляции, агрохимия. Задача везде одна: найти оптимальный состав из N компонентов при ограничениях на стоимость, экологию, доступность ингредиентов и требованиях к свойствам конечного продукта.

Глубоко: Bayesian Optimization для направленного поиска

Это ключевая техника для оптимизации рецептур, когда каждый эксперимент дорог.

Почему не перебор и не DOE. Full factorial design на 10 компонентах с 5 уровнями — 5^10 ≈ 10 млн экспериментов. Fractional factorial DOE уменьшает это до нескольких сотен, но не учитывает результаты предыдущих экспериментов адаптивно.

Bayesian Optimization строит surrogate модель (чаще всего Gaussian Process) поверхности отклика и использует acquisition function для выбора следующей точки эксперимента. BoTorch (PyTorch) — производственная реализация с поддержкой:

Multi-objective BO: несколько целевых свойств одновременно (например, адгезия + вязкость + стоимость); qNEHVI acquisition function строит Pareto-фронт
Constrained BO: нельзя превышать концентрацию компонента X, стоимость рецептуры не более Y
Batch BO: предлагать K экспериментов одновременно для параллельного синтеза в лаборатории

На реальном кейсе (рецептура эпоксидного адгезива, 8 компонентов, цели: прочность на сдвиг > 20 МПа, удлинение при разрыве > 5%, стоимость < N руб/кг): Bayesian Optimization нашёл Pareto-оптимальные составы за 43 итерации против ~150 в исторических экспериментах по традиционному DOE. Экономия времени разработки — ~8 недель.

Gaussian Process vs. Neural Network surrogate. GP работает хорошо на малых выборках (< 200 точек) и даёт calibrated uncertainty estimates — важно для acquisition function. При >500 точках экспериментальных данных переходим на Deep Ensembles или BNN (Bayesian Neural Network) через Pyro/NumPyro — они лучше масштабируются.

Предсказание свойств по составу: ML-модели

Параллельно с оптимизацией строим предсказательные модели свойств:

Для составов без молекулярной структуры (рецептуры смесей):

Входные фичи: концентрации компонентов, их физико-химические свойства (растворимость, плотность, молярная масса)
Модели: Gaussian Process, XGBoost/LightGBM, Neural Network с uncertainty quantification
Метрики: RMSE, R² на holdout; важна оценка uncertainty для extrapolation detection

Для молекулярных структур (новые индивидуальные вещества):

GNN на молекулярном графе (chemprop, D-MPNN)
Фичи: конституционные, топологические, геометрические дескрипторы (RDKit → 200+ признаков)

Смешанный подход: рецептура из известных компонентов + новые молекулы — комбинация табличного ML и GNN через ансамблирование или feature concatenation.

Работа с малыми данными

Типичная проблема: 30–80 исторических экспериментов. При этом работает:

Transfer learning: предобученный GNN на широком датасете (ChEMBL, NIST) + fine-tune на малой внутренней выборке
Active learning: модель сама выбирает, какие эксперименты провести для максимального снижения uncertainty (query by committee или BALD criterion)
Data augmentation для составов: физически обоснованные интерполяции (линейные смеси компонентов дают предсказуемое поведение для многих свойств)

Интерфейс для химика-разработчика

ML-инструмент для разработчика рецептур — не чёрный ящик. Обязательные элементы:

SHAP для объяснения предсказаний: "компонент А вносит +15% в прочность, компонент B — −8%"
Uncertainty display: точки экстраполяции явно помечены, модель говорит "не знаю" в незнакомых областях
Constraint builder: визуальный интерфейс для задания ограничений на состав
Experiment suggester: следующие N рекомендуемых экспериментов с ожидаемым приростом целевого свойства

Процесс

Сбор исторических данных — лабораторные записи, LIMS-выгрузки, нормализация единиц
Feature engineering — кодирование компонентов, добавление физико-химических дескрипторов
Baseline surrogate model — GP или LightGBM на исторических данных
Active learning loop — предложение экспериментов → синтез → обновление модели
Multi-objective optimization — Pareto-фронт для финального выбора рецептуры
Документация — SHAP-объяснения для R&D отчёта

MVP (один целевой продукт, имеющийся датасет): 6–10 недель. Платформа многопродуктовой оптимизации с active learning interface для лаборатории: 4–8 месяцев.