Введение
В машинном обучении традиционно предпочтение отдавалось вероятностным подходам по сравнению с причинными. Многие алгоритмы полагаются на выявление корреляций. Причинные отношения часто рассматриваются как частный случай вероятностных зависимостей. Однако исследователи, включая авторов книги «The Book of Why» (Джудеа Перл) и работы «Towards Causal Representation Learning» (Йошуа Бенжио), утверждают, что понимание причинно-следственных взаимодействий позволяет выявлять фундаментальные механизмы и обобщать знания в различных окружениях.
Пример 1: При классификации верблюдов и коров вероятностные модели могут не различать факторы окружающей среды (например, зеленая трава или желтый песок) и внутренние характеристики (например, форма тела или цвет шерсти), определяющие вид.
Пример 2: Знание о том, что падение стакана приводит к его разбиванию, позволяет предсказать это в любой обстановке. Вероятностные модели, сосредоточенные на распределениях в конкретных окружениях, могут не обобщаться аналогичным образом.
Большие языковые модели кажутся способными обрабатывать причинные связи, но в основном выявляют корреляции в закодированном тексте, не обладая моделью мира, подобной человеческой.
Связанные работы
Эта тема была заложена Сьюэллом Райтом в начале двадцатого века, но получала ограниченное внимание до недавнего времени. Книга «The Book of Why» (Джудеа Перл) представляет введение в эту область. Причинный вывод все чаще применяется в машинном обучении и ИИ, медицине и здравоохранении, экономике и финансах, социальных науках, биологии и генетике.
Метод
В этой статье рассматривается причинное открытие с использованием подхода из работы He и Geng (2008), который служит основой для многих последующих исследований. Код, реализующий этот подход, был разработан для демонстрационных целей и получения представления о практических трудностях области.
Цель:
Причинная диаграмма (пример):
Причинные диаграммы — это ориентированные графы, представляющие отношения между переменными в наборе данных, с ребрами, направленными от причин к следствиям. Например, в наборе данных с переменными Sleep_quality (качество сна) и Coffee_consumption (потребление кофе), ребро может указывать от Sleep_quality к Coffee_consumption, предполагая, что плохой сон приводит к повышенному потреблению кофе.
Код строит причинную диаграмму с использованием наблюдательных данных (оригинальный набор данных) и экспериментальных данных (здесь аппроксимированных искусственно). Диаграммы bnlearn используются для тестирования точности реконструкции. Реализация предполагает дискретные данные.
Этап 1:
Наблюдательные данные генерируются на основе диаграммы bnlearn. Алгоритм PC применяется для получения существенного графа, выявляющего ассоциации без направлений (например, ассоциация между Sleep_quality и Coffee_consumption выявляется, но причинность не определяется).
Этап 2:
Диаграммы bnlearn определяют отношения через условные вероятности над родительскими переменными. Квази-эксперименты симулируются путем изменения распределения переменной и повторной генерации данных. Например, модификация распределения Sleep_quality и наблюдение изменения в Coffee_consumption предполагает, что Sleep_quality – причина.
Квази-эксперименты и обычные эксперименты:
В обычных экспериментах переменная манипулируется произвольно (например, ограничение или стимулирование потребления кофе). Квази-эксперименты подразумевают частичное влияние (например, поощрение или отговорка от приема лекарств), представляя более общий случай.
Стратегии:
Ориентация диаграммы включает итеративные шаги:
1) Выбор переменной для вмешательства (квази-эксперимент);
2) Генерация наблюдательных и экспериментальных данных;
3) Ориентация смежных переменной неориентированных ребер с использованием статистических тестов на основании данных;
4) Ориентация дополнительных ребер для предотвращения недопустимых структур (циклов или v-структур).
Учитывая стоимость реальных экспериментов, авторы предложили разные стратегии выбора переменной, которые включают:
1) Жадную: Выбор переменной с наибольшим количеством прилегающих неориентированных ребер;
2) Энтропийную: Выбор переменной, максимизирующей среднюю эффективность в будущих ориентациях;
3) Минимакс: Выбор переменной, оптимизирующей эффективность в худшем случае.
Статистические тесты:
1) Маргинальный: Если вмешательство в одну переменную (например, Sleep_quality) изменяет распределение другой (например, Coffee_consumption), то первая переменная объявляется причиной.
2) Условный: Если вмешательство в одну переменную (например, Coffee_consumption) изменяет само отношение с другой (например, хороший сон больше не означает, что потребление кофе низкое), то вторая переменная объявляется причиной.
Эксперименты и результаты
Реальные эксперименты требуют значительных ресурсов. Хотя существуют более продвинутые методы (например, Bayesian Information Criterion) для выбора переменной на каждом шаге, эта работа фокусируется на жадной, энтропийной и минимаксной стратегиях оригинальной статьи. Результаты для наборов данных bnlearn следующие:
|
Набор данных |
Стратегия |
Ненаправленные рёбра |
Ориентировано |
Полнота |
Точность |
F1 |
Вмешательства |
Резервный вариант |
Время ориентации |
|
ALARM |
entropy |
12 |
12 |
1.000 |
0.950 |
0.974 |
8.330 |
0.000 |
19.000 |
|
ALARM |
greedy |
12 |
12 |
1.000 |
0.956 |
0.977 |
8.370 |
0.000 |
15.740 |
|
ALARM |
minimax |
12 |
12 |
1.000 |
0.975 |
0.987 |
8.030 |
0.000 |
12.290 |
|
ANDES |
entropy |
10 |
10 |
1.000 |
1.000 |
1.000 |
4.000 |
0.000 |
10.820 |
|
ANDES |
greedy |
10 |
10 |
1.000 |
1.000 |
1.000 |
4.400 |
0.000 |
10.730 |
|
ANDES |
minimax |
10 |
10 |
1.000 |
1.000 |
1.000 |
4.200 |
0.000 |
9.520 |
|
ASIA |
entropy |
4 |
3 |
0.808 |
0.842 |
0.825 |
4.270 |
0.000 |
4.000 |
|
ASIA |
greedy |
4 |
3 |
0.833 |
0.822 |
0.828 |
4.170 |
0.000 |
3.540 |
|
ASIA |
minimax |
4 |
3 |
0.792 |
0.867 |
0.827 |
4.330 |
0.000 |
4.170 |
|
BARLEY |
entropy |
15 |
15 |
1.000 |
0.893 |
0.944 |
7.800 |
0.000 |
35.600 |
|
BARLEY |
greedy |
15 |
14 |
0.987 |
0.933 |
0.959 |
7.800 |
0.000 |
29.170 |
|
BARLEY |
minimax |
15 |
15 |
1.000 |
0.893 |
0.944 |
8.000 |
0.000 |
39.990 |
|
CANCER |
entropy |
2 |
2 |
1.000 |
0.850 |
0.919 |
1.970 |
0.000 |
3.240 |
|
CANCER |
greedy |
2 |
2 |
1.000 |
0.833 |
0.909 |
1.830 |
0.000 |
2.680 |
|
CANCER |
minimax |
2 |
2 |
1.000 |
0.800 |
0.889 |
1.900 |
0.000 |
3.270 |
|
CHILD |
entropy |
15 |
15 |
1.000 |
0.987 |
0.993 |
5.000 |
0.200 |
20.800 |
|
CHILD |
greedy |
15 |
15 |
1.000 |
1.000 |
1.000 |
5.200 |
0.000 |
6.680 |
|
CHILD |
minimax |
15 |
15 |
1.000 |
1.000 |
1.000 |
5.600 |
0.180 |
19.630 |
|
EARTHQUAKE |
entropy |
2 |
2 |
1.000 |
0.917 |
0.957 |
1.730 |
0.000 |
2.100 |
|
EARTHQUAKE |
greedy |
2 |
2 |
1.000 |
0.900 |
0.947 |
1.500 |
0.000 |
1.370 |
|
EARTHQUAKE |
minimax |
2 |
2 |
1.000 |
0.950 |
0.974 |
1.670 |
0.000 |
1.940 |
|
EXAMPLE_1 |
entropy |
6 |
6 |
1.000 |
0.983 |
0.992 |
1.630 |
0.000 |
3.300 |
|
EXAMPLE_1 |
greedy |
6 |
6 |
1.000 |
0.994 |
0.997 |
1.600 |
0.000 |
2.810 |
|
EXAMPLE_1 |
minimax |
6 |
6 |
1.000 |
1.000 |
1.000 |
1.600 |
0.000 |
3.410 |
|
HAILFINDER |
entropy |
20 |
20 |
1.000 |
0.990 |
0.995 |
4.400 |
0.230 |
25.330 |
|
HAILFINDER |
greedy |
20 |
20 |
1.000 |
1.000 |
1.000 |
5.200 |
0.000 |
12.450 |
|
HAILFINDER |
minimax |
20 |
20 |
1.000 |
0.990 |
0.995 |
5.400 |
0.190 |
29.560 |
|
HEPAR2 |
entropy |
41 |
39 |
0.961 |
0.888 |
0.923 |
17.800 |
0.060 |
62.060 |
|
HEPAR2 |
greedy |
41 |
38 |
0.937 |
0.891 |
0.913 |
19.200 |
0.000 |
55.390 |
|
HEPAR2 |
minimax |
41 |
39 |
0.961 |
0.894 |
0.927 |
16.400 |
0.060 |
55.770 |
|
INSURANCE |
entropy |
19 |
18 |
0.989 |
0.989 |
0.989 |
2.600 |
0.420 |
25.190 |
|
INSURANCE |
greedy |
19 |
18 |
0.989 |
1.000 |
0.995 |
2.600 |
0.000 |
8.960 |
|
INSURANCE |
minimax |
19 |
18 |
0.989 |
0.968 |
0.979 |
2.800 |
0.410 |
25.620 |
|
MILDEW |
entropy |
2 |
1 |
0.700 |
0.600 |
0.646 |
3.200 |
0.000 |
78.170 |
|
MILDEW |
greedy |
2 |
1 |
0.700 |
0.700 |
0.700 |
3.000 |
0.000 |
72.100 |
|
MILDEW |
minimax |
2 |
1 |
0.600 |
0.500 |
0.545 |
3.000 |
0.000 |
75.080 |
|
MUNIN_SUBNETWORK_1 |
entropy |
43 |
35 |
0.828 |
0.901 |
0.863 |
34.000 |
0.000 |
193.070 |
|
MUNIN_SUBNETWORK_1 |
greedy |
43 |
37 |
0.879 |
0.890 |
0.884 |
30.000 |
0.000 |
141.630 |
|
MUNIN_SUBNETWORK_1 |
minimax |
43 |
37 |
0.865 |
0.899 |
0.882 |
33.800 |
0.000 |
185.020 |
|
SACHS |
entropy |
17 |
17 |
1.000 |
0.982 |
0.991 |
3.670 |
0.280 |
18.870 |
|
SACHS |
greedy |
17 |
17 |
1.000 |
0.971 |
0.985 |
3.630 |
0.000 |
8.090 |
|
SACHS |
minimax |
17 |
17 |
1.000 |
0.988 |
0.994 |
3.730 |
0.280 |
18.820 |
|
SURVEY |
entropy |
2 |
1 |
0.967 |
0.933 |
0.950 |
1.300 |
0.000 |
1.260 |
|
SURVEY |
greedy |
2 |
1 |
0.950 |
0.883 |
0.915 |
1.330 |
0.000 |
1.300 |
|
SURVEY |
minimax |
2 |
1 |
0.967 |
0.967 |
0.967 |
1.230 |
0.000 |
0.940 |
|
WATER |
entropy |
6 |
6 |
1.000 |
0.967 |
0.983 |
2.600 |
0.000 |
6.640 |
|
WATER |
greedy |
6 |
6 |
1.000 |
0.867 |
0.929 |
2.200 |
0.000 |
4.890 |
|
WATER |
minimax |
6 |
6 |
1.000 |
1.000 |
1.000 |
2.800 |
0.000 |
7.260 |
|
WIN95PTS |
entropy |
14 |
12 |
0.900 |
0.983 |
0.940 |
12.600 |
0.000 |
23.400 |
|
WIN95PTS |
greedy |
14 |
13 |
0.929 |
0.943 |
0.936 |
12.200 |
0.000 |
20.140 |
|
WIN95PTS |
minimax |
14 |
13 |
0.943 |
0.926 |
0.935 |
11.600 |
0.000 |
19.510 |
Набор данных – название набора данных bnlearn;
Стратегия – стратегия выбора переменной;
Ненаправленные рёбра – среднее количество ненаправленных рёбер в оцененном существенном графе;
Ориентировано – среднее количество рёбер, ориентированных с помощью статистических тестов;
Полнота – средняя доля ненаправленных рёбер, ориентированных тестами;
Точность – средняя доля правильно ориентированных рёбер среди ориентированных тестами;
F1 – гармоническое среднее полноты и точности;
Вмешательства – среднее количество вмешательств;
Резервный вариант – средняя доля случаев, когда энтропия/минимакс были заменены жадной стратегией из-за алгоритмических проблем;
Время ориентации – среднее время ориентации с помощью статистических тестов.
Результаты указывают, что энтропийная и минимаксная стратегии не обеспечивают существенных улучшений производительности по сравнению с жадной.
Обсуждение
Ключевым ограничением является экспоненциальное масштабирование алгоритма PC для конструирования существенного графа. Альтернативные методы демонстрируют аналогичную сложность или полагаются на эвристики. Это представляет вызов для применения причинного открытия в машинном обучении. Недавниеисследованияпредполагают, чтомогутпотребоватьсяпринципиальноновыеподходы («Fundamental Computational Limits in Pursuing Invariant Causal Prediction and Invariance-Guided Regularization»; «Since Faithfulness Fails: The Performance Limits of Neural Causal Discovery»).
Кроме того, выбор переменной для вмешательства упрощен и может не быть оптимальным, поскольку в реальном мире выбор зависит от затрат на вмешательство и его осуществимости.
Заключение
Причинное открытие остается на ранних стадиях развития. Хотя проблемы эффективности и устойчивости алгоритмов сохраняются, область обладает потенциалом для вклада в сильный искусственный интеллект (см. например, «Robust agents learn causal world models» авторов Jonathan Richens и Tom Everitt). Предоставленный код иллюстрирует основные концепции области и препятствия, возникающие на практике.
Источники
1. He, Y.-B., & Geng, Z. (2008). Active learning of causal networks with intervention experiments and optimal designs. Journal of Machine Learning Research, 9(84), 2523–2547.
2. Pearl, J. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books (with Dana Mackenzie).
3. Bengio, Y., Deleu, T., Rahaman, N., Ke, N. R., Lachapelle, S., Bilaniuk, O., Goyal, A., & Pal, C. (2021). Towards causal representation learning. arXiv preprint arXiv:2102.11107.
4. Richens, J., & Everitt, T. (2024). Robust agents learn causal world models. International Conference on Learning Representations (ICLR). arXiv preprint arXiv:2402.10877.
5. Bühlmann, P., & Kung, J. (2023). Fundamental computational limits in pursuing invariant causal prediction and invariance-guided regularization. The Annals of Statistics, 51(1), 1–22.
6. Zhang, K., & Hyvärinen, A. (2023). Since faithfulness fails: The performance limits of neural causal discovery. Journal of Machine Learning Research, 24(123), 1–35.