Что такое регуляризация в машинном обучении

26.10.202325.04.2022 admin 0 Comments

Регуляризация

Определение:

Регуляризация (англ. regularization) в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить некорректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.

Содержание

Мотивация [ править ]

Как говорилось ранее, регуляризация полезна для борьбы с переобучением. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую.

На примере линейной регрессии [ править ]

На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 — модель, слишком сильно заточенная под обучающую выборку.

Однин из способов бороться с негативным эффектом излишнего подстраивания под данные — использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком «резкие» изгибы, и предотвращается переобучение.

На примере логистической регрессии [ править ]

Необходимость регуляризации можно увидеть и на другом примере — при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится «ступенька», представленная на Рис. 3.

Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.

Основные виды регуляризации [ править ]

В представленных ниже формулах для эмпирического риска [math]Q[/math] : [math]\mathcal[/math] является функцией потерь, а [math]\beta[/math] — вектором параметров [math]g(x, \beta)[/math] из модели алгоритма, а [math]\lambda[/math] — неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.

Запишем задачу настройки вектора параметров [math]\beta[/math] :

где [math]\mathcal_(\beta) = \mathcal(y_, g(x_, \beta))[/math] — некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной [math]\beta_[/math] поставим в соответствие две новые неотрицательные переменные:

[math]\begin \beta_ = u_ — v_ \\ |\beta_| = u_ + v_ \end[/math]

В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:

Эластичная сеть [ править ]

Вероятностная интерпретация регуляризации [ править ]

Эквивалентная вероятностная задача [ править ]

Перед нами стоит задача — минимизировать эмпирический риск:

[math]Q(\beta, X^l)=\sum\limits _^l\mathcal(y_, g(x_, \beta)) \rightarrow \min\limits_<\beta>[/math]

[math]p(X^l|\beta)=\prod\limits_^lp(x_,y_|\beta) \rightarrow \max\limits_<\beta>[/math]

Удобнее рассматривать логарифм правдоподобия:

[math]L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_^l \ln p(x_, y_|\beta) \rightarrow \max\limits_<\beta>[/math]

Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:

[math]-\ln p(x_, y_|\beta)=\mathcal(y_, g(x_, \beta))[/math]

Принцип максимума совместного правдоподобия данных и модели [ править ]

[math]p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)[/math]

Таким образом, приходим к принципу максимума совместного правдоподобия данных и модели:

[math]L_<\gamma>(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_^l \ln p(x_, y_|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_<\beta>[/math]

Функционал [math]L_<\gamma>[/math] распадается на два слагаемых: логарифм правдоподобия и регуляризатор, не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно.

В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели. При этом можно определить распределения, которые соответствуют представленным ранее [math]L_<1>[/math] и [math]L_<2>[/math] регуляризаторам.

Нормальный регуляризатор [ править ]

[math]\beta \sim N(0, \sigma^2)[/math]

Логарифмируя, получаем квадратичный регуляризатор:

Лапласовский регуляризатор [ править ]

[math]\beta \sim Laplace(0, C)[/math]

Регуляризация в линейной регрессии [ править ]

$g(x, \beta) = \sum\limits_^n \beta_ \,f_(x)$

В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:

Гребневая регрессия [ править ]

Итоговый минимизируемый функционал с поправкой:

Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:

Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:

Поэтому данный метод называют также сжатие или сокращение весов.

В нерегуляризованном случае:

В случае с гребнем:

Лассо регрессия [ править ]

Итоговый минимизируемый функционал с поправкой:

Сравнение гребневой и лассо регрессий [ править ]

В случае с гребневой регрессией:

В случае с лассо регрессией:

$\beta_^* = \begin y_ — \lambda / 2, y_ > \lambda / 2 \\ y_ + \lambda / 2, y_

Регуляризация в алгоритмах [ править ]

Градиентный спуск [ править ]

[math]Q(w, X^l)=\sum\limits_^l\mathcal(y_, \langle w, x_ \rangle) \rightarrow \min\limits_[/math]

где [math]\eta \gt 0[/math] — величина шага в направлении антиградиента.

Регуляризация — одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также сокращением весов. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу [math]Q(w)[/math] добавляется штрафное слагаемое:

Это приводит к появлению аддитивной поправки в градиенте:

[math]Q_<\tau>‘(w) = Q′(w) + \tau w[/math]

В результате правило обновления весов принимает вид:

Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки — параметр [math]\tau[/math] необходимо выбирать с помощью кросс-валидации, что связано с большими вычислительными затратами.

Метод опорных векторов [ править ]

Метод опорных векторов (SVM) используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.

Другие использования регуляризации [ править ]

Логистическая регрессия [ править ]

Как было показано в мотивационном примере, для логистической регрессии может быть полезно использовать регуляризацию.

Аналогично можно использовать и другие регуляризаторы.

Нейронные сети [ править ]