AI-система измерения социального воздействия
«Наша программа помогла 2400 участникам» — это output, не impact. Impact — это что изменилось в жизни этих людей по сравнению с тем, что было бы без программы. Доказать causality в социальных программах сложно: нельзя рандомизировать контрольную группу в большинстве реальных кейсов. ML-методы позволяют приблизиться к causal inference без RCT.
Causal Inference без рандомизации
Propensity Score Matching (PSM)
Задача: программа трудоустройства помогла 500 безработным. Как понять, что именно программа, а не экономический подъём увёл их с безработицы?
PSM строит контрольную группу из похожих людей (по демографии, образованию, стажу безработицы), которые не участвовали в программе. XGBoost или Logistic Regression предсказывает propensity score — вероятность попасть в программу для каждого человека. Затем: nearest-neighbor matching по propensity score → сравнение outcomes (трудоустройство через 6 мес) между treatment и matched control.
На данных программы занятости 500 участников + 8000 кандидатов с рынка труда: PSM дал ATT (Average Treatment Effect on Treated) = +18.3 п.п. к вероятности трудоустройства за 6 месяцев (95% CI: [14.2, 22.4]). До PSM ручная оценка давала «результат 71%» — без базы сравнения это ничего не значит.
Difference-in-Differences (DiD)
Когда данные до/после программы есть для обеих групп: DiD = (outcome_treatment_after - outcome_treatment_before) - (outcome_control_after - outcome_control_before). ML-расширение (Double ML / Causal Forests): учёт нелинейных ковариат, гетерогенные treatment effects для разных подгрупп.
Instrumental Variables и RDD
Regression Discontinuity Design: если в программу берут только при score > 70 баллов — сравниваем тех, кто получил 68–69 с теми, кто получил 71–72. Они почти одинаковые, но одни прошли программу, другие нет. Quasi-experimental design без рандомизации.
Автоматизация сбора данных о воздействии
Survey automation и follow-up
Участник завершил программу → через 3, 6, 12 месяцев — автоматический follow-up survey (SMS + email). LLM-агент анализирует качество ответов: пропущенные блоки, неконсистентные ответы → запрос уточнения. NLP analysis открытых ответов: тематическое кодирование по Theory of Change outcomes.
Response rate критичен для качества impact data. ML персонализирует follow-up timing по участнику: когда этот конкретный человек обычно отвечает на коммуникации. На pilot: response rate через 12 месяцев 34% vs. 18% у статичного расписания.
Administrative data linkage
Связывание данных программы с административными источниками: данные пенсионного фонда (трудоустройство), налоговые данные (доход), медицинские реестры (госпитализации), школьные оценки (для образовательных программ). Privacy-preserving record linkage через probabilistic matching (Fellegi-Sunter model) или федеральные record linkage системы (где доступны).
SROI (Social Return on Investment)
Монетизация социального воздействия
SROI: для каждого outcome определяем financial proxy:
- 1 трудоустроенный → $28K economic value (прирост налогов + снижение пособий, proxy из government statistics)
- 1 человек избежал рецидива → $45K (снижение judicial system costs, government data)
- 1 ребёнок улучшил школьную успеваемость → $18K (lifetime earnings premium, human capital theory)
ML-компонент: deadweight calculation — какая часть outcomes произошла бы без программы (на основе PSM counterfactual). SROI = (total outcome value - deadweight) / total investment. Автоматический расчёт и отчёт для каждого грантового цикла.
Theory of Change мониторинг
Dashboard KPI дерева
Theory of Change → логическая модель: Inputs → Activities → Outputs → Outcomes → Impact. Каждый узел — измеримый показатель с целевым значением и actual. dbt трансформации + Metabase/Tableau dashboard. Automated alerts при отклонении от траектории: выход показателя за ±20% от плана → уведомление программному директору.
Предиктивная аналитика программ
На основе early indicators (1–2 месяца участия) предсказать вероятность достижения outcome к концу программы. XGBoost на engagement features: посещаемость занятий, выполнение заданий, оценки промежуточных тестов. Участники с predicted success rate < 40% → проактивное дополнительное сопровождение. На образовательной программе: удержание до финала +22%, improvement в final outcomes +14%.
Срок разработки: 3–5 месяцев для PSM + SROI + Theory of Change dashboard. Административный data linkage — отдельный проект 2–4 месяца, зависит от доступности данных.







