Классическая смесь экспертов (MoE, Mixture of Experts) — это архитектурный подход в машинном обучении, в котором несколько моделей (экспертов) обучаются на разные подзадачи, а специальная сеть маршрутизации (gating network) определяет, какие эксперты должны быть активированы для обработки конкретного входа.
Основные компоненты MoE:
-
Эксперты (Experts):
-
Это обычно нейронные сети или простые модели.
-
Каждый эксперт обучается на подмножестве данных или на специализированной задаче.
-
Все эксперты получают один и тот же вход, но только некоторые из них используются на каждом шаге.
-
Сеть маршрутизации (Gating Network):
-
Агрегация выходов:
Классическая формализация:
Пусть:
-
— вход,
-
— выход i-го эксперта,
-
— вес, выданный gater'ом для эксперта .
Тогда итоговый выход модели:
Если используется hard routing с top-k, то только k экспертов участвуют в суммировании, а веса нормализуются среди них.
Цель и мотивация:
-
Масштабируемость: позволяет использовать очень большие модели, активируя лишь малую часть параметров при каждом вызове (sparse computation).
-
Модулярность: каждый эксперт может специализироваться на своей подзадаче, улучшая общую эффективность.
-
Универсальность: MoE может использоваться в NLP, CV и других областях.
Пример: Использование MoE в NLP
В трансформерах, как Switch Transformer или GShard, MoE применяется к feed-forward слоям. Например:
-
Вместо одного FFN блока в трансформере, MoE блок содержит десятки экспертов.
-
На каждый токен выбирается, скажем, top-2 эксперта.
-
Это позволяет масштабировать трансформер до триллионов параметров без пропорционального увеличения вычислений.
Проблемы и вызовы:
-
Балансировка нагрузки:
-
Некоторые эксперты могут переиспользоваться, другие — не использоваться.
-
Используются специальные потери (auxiliary loss), чтобы равномерно распределять входы между экспертами.
-
Обратное распространение (Backpropagation):
-
Hard routing делает обучение недифференцируемым (иногда используют REINFORCE или другие подходы).
-
Soft routing более стабильный, но менее эффективный в вычислениях.
-
Коммуникационные издержки (в распределённых системах):
Историческая справка:
Заключение
Классическая смесь экспертов — мощный способ построения масштабируемых, разреженных моделей, в которых только часть параметров активируется при каждом вызове, что позволяет использовать огромные архитектуры без чрезмерных затрат на вычисления. |