Что такое регрессионная модель

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельтакая, что сумма квадратов разностей Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельминимальна.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельвокруг регрессии Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельявляется дисперсия.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

В матричном виде это выгладит

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Случайная величина Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельможет быть интерпретирована как сумма из двух слагаемых:

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

В этой формуле Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель— коэффициент взаимной детерминации между Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модельи остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Регрессионная модель

Материал из MachineLearning.

Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.

Регрессионная модель — это параметрическое семейство функций, задающее отображение

где — пространтсво параметров, — пространство свободных переменных, — пространство зависимых переменных.

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Предположение о характере распределения случайной величины называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.

Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение

Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.

Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.

И регрессионная, и математическая модель, как правило, задают непрерывное отображение. Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений, где требование непрерывности выставляется естественным образом. Иногда на отображение накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие. Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.

При решении задач регрессионного анализа встают следующие вопросы.

Источник

Регрессионная модель

Регрессионная модель [reg­res­sion model] — экономико-статистическая модель, основанная на уравнении регрессии, или системе регрессионных уравнений, связывающих величины экзогенных (входных, «объясняющих») и эндогенных (выходных) переменных. Примеры см. в статьях Линейная модель, Регрессионный анализ..

Смотреть что такое «Регрессионная модель» в других словарях:

регрессионная модель — Экономико статистическая модель, основанная на уравнении регрессии, или системе регрессионных уравнений, связывающих величины экзогенных (входных, «объясняющих») и эндогенных (выходных) переменных. Примеры см. в статьях Линейная модель,… … Справочник технического переводчика

Цензурированная регрессионная модель — [censored regression model] — регрессионная модель, в которой на области изменения части (или даже всех) переменных наложены определенные ограничения — например, они не могут быть отрицательными. Зависимая переменная регрессионной… … Экономико-математический словарь

цензурированная регрессионная модель — Регрессионная модель, в которой на области изменения части (или даже всех) переменных наложены определенные ограничения например, они не могут быть отрицательными. Зависимая переменная регрессионной модели в таких случаях называется ограниченно… … Справочник технического переводчика

Усеченная регрессионная модель — Усеченная регрессионная модель [truncated regression model] — модель, из которой изъято некоторое число переменных … Экономико-математический словарь

усеченная регрессионная модель — Модель, из которой изъято некоторое число переменных. [http://slovar lopatnikov.ru/] Тематики экономика EN truncated regression model … Справочник технического переводчика

линейная регрессионная модель — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN linear regression model … Справочник технического переводчика

нелинейная регрессионная модель — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN nonlinear regression model … Справочник технического переводчика

Модель бинарного выбора — Модель бинарного выбора применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически… … Википедия

Модель — 9. Модель Изделие, являющееся трехразмерным упрощенным изображением предмета в установленном масштабе Модель является составной частью макета Источник … Словарь-справочник терминов нормативно-технической документации

Модель регрессионного анализа — 28. Модель регрессионного анализа Регрессионная модель Зависимость отклика от количественных факторов и ошибок наблюдения отклика Источник: ГОСТ 24026 80: Исследовательские испытания. Планирование эксперимента. Термины и определения … Словарь-справочник терминов нормативно-технической документации

Источник

ГЛАВА 4 Построение регрессионных моделей различного типа

4.1 Селекция оптимального набора предикторов линейной модели

В качестве примера рассмотрим построение регрессионных моделей, прогнозирующих обилие водорослей группы a1 в зависимости от гидрохимических показателей воды и условий отбора проб в различных водотоках (см. подробное описание таблицы переменных в разделе 3.4):

Важные предварительные выводы можно сделать, сформировав корреляционную матрицу предикторов (рис. 4.1):

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Рисунок 4.1: Корреляционная матрица показателей качества воды в реках

Очевидно, что между предикторами существуют корреляционные связи умеренной силы, а коллинеарность, в целом, выражена слабо.

4.1.1 Полная регрессионная модель и пошаговая процедура

Построим сначала линейную модель на основе полного набора переменных:

Доля значимых предикторов стала существенно выше. Проверим также, можно ли считать статистически значимой некоторое увеличение ошибки модели:

Выполним тестирование обоих моделей функцией train() из пакета caret (см. раздел 3.5) с использованием 10-кратной перекрестной проверки:

Преимущества модели, полученной с использованием пошаговой процедуры отбора предикторов, вполне очевидны.

4.1.2 Рекурсивное исключение переменных

Функция rfe() из пакета caret включает алгоритм RFE в процедуру ресэмплинга, и тогда цикл рекурсивного исключения приобретает следующий вид:

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Рисунок 4.2: Изменение корня из среднеквадратичной ошибки и коэффициента детерминации в зависимости от числа предикторов (по результатам перекрестной проверки)

Нельзя утверждать, что нам удалось достигнуть серьезных успехов, применив метод RFE: пошаговая модель lm_step.a1 была компактнее и чуть лучше (по результатам перекрестной проверки), хотя и уступала модели RFE по величине ошибки на обучающей выборке.

4.1.3 Генетический алгоритм

Генетический алгоритм, позаимствованный у природных аналогов и разработанный Дж. Холландом (Holland, 1975), отличается от большинства иных процедур селекции тем, что поиск оптимального решения развивается не сам по себе, а с учетом предыдущего опыта. Смысл его заключается в следующем:

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Рисунок 4.3: Схема кроссинговера и мутации во время применения генетического алгоритма

Несмотря на большие затраты вычислительных ресурсов (поиск решения продолжался более 30 мин.), была получена комбинация предикторов, превосходящая по критериям RMSE и Rsquared все три предыдущие модели.

4.1.4 Тестирование моделей с использованием дополнительного набора данных

Возникает естественный вопрос: а какой из четырех полученных моделей следует все же отдать предпочтение при прогнозировании? Хорошую возможность ответить на него предоставляет нам Л. Торго (Torgo, 2011), подготовивший на сайте своей книги (http://www.dcc.fc.up.pt) специально предназначенный для этого набор данных из 140 наблюдений (см. файл Eval.txt с предикторами и Sols.txt со значениями отклика). Пропущенные значения заполним с использованием алгоритма бэггинга:

Вероятно, нет смысла делать серьезные выводы из того, что рейтинг лучших моделей при перекрестной проверке и при независимом тестировании на объектах, не участвовавших в построении моделей, оказался столь несовпадающим. Во-первых, разброс критериев точности моделей находится в пределах доверительных интервалов, поэтому их ранжирование, строго говоря, можно трактовать как обусловленное случайными причинами. Во-вторых, многое зависит от того, например, насколько неоднородны были между собой обе выборки. И, наконец, напомним, что одним из основных принципов моделирования сложных систем является принцип множественности моделей, сформулированный В. В. Налимовым и заключающийся в возможности представления одной и той же системы множеством различных моделей в зависимости от целей исследования.

Полученные вами результаты могут отличаться от приведенных в силу случайного характера подвыборок, формируемых в ходе перекрестной проверки.↩

Источник

Линейная регрессия

Создавайте прогнозы с помощью простой для понимания математической формулы

Что такое линейная регрессия?

Линейный регрессионный анализ используется для прогнозирования значения переменной на основе значения другой переменной. Переменная, которую требуется предсказать, называется зависимой переменной. Переменная, которая используется для предсказания значения другой переменной, называется независимой переменной.

Эта форма анализа заключается в подборе таких коэффициентов линейного уравнения с одной или несколькими независимыми переменными, чтобы это уравнение наилучшим образом предсказывало значение зависимой переменной. Результат линейной регрессии может быть представлен в виде прямой на плоскости, минимизирующей расхождение между прогнозируемыми и фактическими значениями. Существуют простые калькуляторы линейной регрессии, в которых для расчета оптимальной прямой для аппроксимации набора данных используется метод наименьших квадратов. После этого выполняется оценка величины X (зависимой переменной) по величине Y (независимой переменной).

Что такое регрессионная модель. Смотреть фото Что такое регрессионная модель. Смотреть картинку Что такое регрессионная модель. Картинка про Что такое регрессионная модель. Фото Что такое регрессионная модель

Простота прогнозирования

Расчет линейной регрессии с помощью Microsoft Excel или статистических пакетов, например IBM SPSS® Statistics, значительно упрощает работу с уравнениями, моделями и формулами линейной регрессии. SPSS Statistics может применяться для расчета простой и множественной линейной регрессии.

Линейной регрессией можно пользоваться в разнообразных программах и средах, например:

Почему линейная регрессия важна

Модели линейной регрессии сравнительно просты и предлагают простые для понимания математические формулы прогнозирования. Линейная регрессия может применяться в разных областях науки и бизнеса.

Линейная регрессия используется повсюду: в биологии, исследованиях поведения и окружающей среды, в обществознании и бизнесе. Модели линейной регрессии зарекомендовали себя в качестве надежного научного метода прогнозирования будущего. Поскольку линейная регрессия представляет собой хорошо изученную статистическую процедуру, свойства моделей линейной регрессии хорошо понятны и просты в обучении.

Надежный научный метод прогнозирования будущего.

Руководители могут пользоваться линейной регрессией для повышения качества принимаемых решений. Организации собирают большие объемы данных, и линейная регрессия помогает им пользоваться этими данными вместо опыта и интуиции для оптимизации взаимодействия с окружающей реальностью. Таким образом, появляется возможность трансформировать большие объемы данных в полезную информацию.

Линейной регрессией также можно пользоваться для повышения качества информации путем анализа закономерностей и взаимосвязей, которые ваши коллеги уже видели и думают, что понимают. Например, анализ данных о продажах и закупках помогает выявить закономерности в покупках в определенные дни недели или время суток. Информация, полученная с помощью регрессионного анализа, помогает прогнозировать периоды времени, когда продукция их компании будет пользоваться высоким спросом.

Основные допущения эффективной линейной регрессии

Допущения, которые следует принимать во внимание в ходе линейного регрессионного анализа:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *