Метод регрессии: Регрессионный анализ — Википедия – R — значит регрессия / Habr

Автор: | 27.06.2020

Содержание

Регрессионный анализ — Википедия

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных X1,X2,…,Xp{\displaystyle X_{1},X_{2},…,X_{p}} на зависимую переменную Y{\displaystyle Y}. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространенный вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определенным математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии[править | править код]

Строго регрессионную зависимость можно определить следующим образом. Пусть Y,X1,X2,…,Xp{\displaystyle Y,X_{1},X_{2},\ldots ,X_{p}} — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X1=x1,X2=x2,…,Xp=xp{\displaystyle X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}} определено условное математическое ожидание

y(x1,x2,…,xp)=E(Y∣X1=x1,X2=x2,…,Xp=xp){\displaystyle y(x_{1},x_{2},\ldots ,x_{p})=\mathbb {E} (Y\mid X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p})} (уравнение регрессии в общем виде),

то функция y(x1,x2,…,xp){\displaystyle y(x_{1},x_{2},\ldots ,x_{p})} называется регрессией величины Y{\displaystyle Y} по величинам X1,X2,…,Xp{\displaystyle X_{1},X_{2},\ldots ,X_{p}}, а её график — линией регрессии Y{\displaystyle Y} по X1,X2,…,Xp{\displaystyle X_{1},X_{2},\ldots ,X_{p}}, или уравнением регрессии.

Зависимость Y{\displaystyle Y} от X1,X2,…,Xp{\displaystyle X_{1},X_{2},\ldots ,X_{p}} проявляется в изменении средних значений Y{\displaystyle Y} при изменении X1,X2,…,Xp{\displaystyle X_{1},X_{2},\ldots ,X_{p}}. Хотя при каждом фиксированном наборе значений X1=x1,X2=x2,…,Xp=xp{\displaystyle X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}} величина Y{\displaystyle Y} остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y{\displaystyle Y} при изменении X1,X2,…,Xp{\displaystyle X_{1},X_{2},…,X_{p}}, используется средняя величина дисперсии Y{\displaystyle Y} при разных наборах значений X1,X2,…,Xp{\displaystyle X_{1},X_{2},…,X_{p}} (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: Y=BX+U{\displaystyle Y=BX+U}, где U{\displaystyle U} — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)[править | править код]

На практике линия регрессии чаще всего ищется в виде линейной функции Y=b0+b1X1+b2X2+…+bNXN{\displaystyle Y=b_{0}+b_{1}X_{1}+b_{2}X_{2}+\ldots +b_{N}X_{N}} (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y{\displaystyle {Y}} от их оценок Y^{\displaystyle {\hat {Y}}} (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

∑k=1M(Yk−Yk^)2→min{\displaystyle \sum _{k=1}^{M}(Y_{k}-{\hat {Y_{k}}})^{2}\to \min }

(M{\displaystyle M} — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y=y(x1,x2,…xN){\displaystyle Y=y(x_{1},x_{2},…x_{N})}.

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

σ(b¯)=12∑k=1M(Yk−Y^k)2{\displaystyle \sigma ({\bar {b}})={\frac {1}{2}}\sum _{k=1}^{M}{(Y_{k}-{\hat {Y}}_{k})^{2}}}

Условие минимума функции невязки:

{∂σ(b¯)∂bi=0i=0…N⇔{∑i=1Myi=∑i=1M∑j=1Nbjxi,j+b0M∑i=1Myixi,k=∑i=1M∑j=1Nbjxi,jxi,k+b0∑i=1Mxi,kk=1,…,N{\displaystyle \left\{{\begin{matrix}{\frac {\partial \sigma ({\bar {b}})}{\partial b_{i}}}=0\\i=0…N\end{matrix}}\right.\Leftrightarrow {\begin{cases}\sum \limits _{i=1}^{M}{y_{i}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}}}+b_{0}M\\\sum \limits _{i=1}^{M}{y_{i}x_{i,k}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}x_{i,k}}}+b_{0}\sum \limits _{i=1}^{M}{x_{i,k}}\\k=1,\ldots ,N\end{cases}}}

Полученная система является системой N+1{\displaystyle N+1} линейных уравнений с N+1{\displaystyle N+1} неизвестными b0,…,bN{\displaystyle b_{0},\ldots ,b_{N}}.

Если представить свободные члены левой части уравнений матрицей

B=(∑i=1Myi∑i=1Myixi,1⋮∑i=1Myixi,N),{\displaystyle B=\left({\begin{matrix}\sum \limits _{i=1}^{M}{y_{i}}\\\sum \limits _{i=1}^{M}{y_{i}x_{i,1}}\\\vdots \\\sum \limits _{i=1}^{M}{y_{i}x_{i,N}}\end{matrix}}\right),}

а коэффициенты при неизвестных в правой части — матрицей

A=(M∑i=1Mxi,1∑i=1Mxi,2…∑i=1Mxi,N∑i=1Mxi,1∑i=1Mxi,1xi,1∑i=1Mxi,2xi,1…∑i=1Mxi,Nxi,1∑i=1Mxi,2∑i=1Mxi,1xi,2∑i=1Mxi,2xi,2…∑i=1Mxi,Nxi,2⋮⋮⋮⋱⋮∑i=1Mxi,N∑i=1Mxi,1xi,N∑i=1Mxi,2xi,N…∑i=1Mxi,Nxi,N),{\displaystyle A=\left({\begin{matrix}M&\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}}&…&\sum \limits _{i=1}^{M}{x_{i,N}}\\\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,1}}&…&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,1}}\\\sum \limits _{i=1}^{M}{x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,2}}&…&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,2}}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum \limits _{i=1}^{M}{x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,N}}&…&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,N}}\end{matrix}}\right),}

то получаем матричное уравнение: A×X=B{\displaystyle A\times X=B}, которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

X=(b0b1⋮bN){\displaystyle X=\left({\begin{matrix}b_{0}\\b_{1}\\\vdots \\b_{N}\end{matrix}}\right)}

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещенные оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Параметры bi{\displaystyle b_{i}} являются частными коэффициентами корреляции; (bi)2{\displaystyle (b_{i})^{2}} интерпретируется как доля дисперсии Y, объяснённая Xi{\displaystyle X_{i}}, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад Xi{\displaystyle X_{i}} в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида X1X2{\displaystyle X_{1}X_{2}}, X1X2X3{\displaystyle X_{1}X_{2}X_{3}}, свидетельствующее о наличии взаимодействий между признаками X1{\displaystyle X_{1}}, X2{\displaystyle X_{2}} и т. д. (см. Мультиколлинеарность).

  • Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8.
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation — und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
  • Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
  • Радченко С. Г. Устойчивые методы оценивания статистических моделей: Монография. — К.: ПП «Санспарель», 2005. — С. 504. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
  • Радченко С. Г. Методология регрессионного анализа: Монография. — К.: «Корнийчук», 2011. — С. 376. — ISBN 978-966-7599-72-0.

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии / Open Data Science corporate blog / Habr

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных. Ключевое отличие нашей подачи материала от аналогичной в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример такой задачи – это соревнование Kaggle Inclass по идентификации пользователя в Интернете по его последовательности переходов по сайтам.

UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.

Все материалы доступны на GitHub.
А вот видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017). В ней, в частности, рассмотрены два бенчмарка соревнования, полученные с помощью логистической регрессии.


Список статей серии

План этой статьи:


  1. Линейная регрессия
  2. Логистическая регрессия
  3. Наглядный пример регуляризации логистической регрессии
  4. Где логистическая регрессия хороша и где не очень
    -Анализ отзывов IMDB к фильмам
    -XOR-проблема
  5. Кривые валидации и обучения
  6. Плюсы и минусы линейных моделей в задачах машинного обучения
  7. Домашнее задание №4
  8. Полезные ресурсы


Метод наименьших квадратов

Рассказ про линейные модели мы начнем с линейной регрессии. В первую очередь, необходимо задать модель зависимости объясняемой переменной от объясняющих ее факторов, функция зависимости будет линейной: . Если мы добавим фиктивную размерность для каждого наблюдения, тогда линейную форму можно переписать чуть более компактно, записав свободный член под сумму: . Если рассматривать матрицу наблюдения-признаки, у которой в строках находятся примеры из набора данных, то нам необходимо добавить единичную колонку слева. Зададим модель следующим образом:

где


Можем выписать выражение для каждого конкретного наблюдения

Также на модель накладываются следующие ограничения (иначе это будет какая то другая регрессия, но точно не линейная):


  • матожидание случайных ошибок равно нулю: ;
  • дисперсия случайных ошибок одинакова и конечна, это свойство называется гомоскедастичностью: ;
  • случайные ошибки не скоррелированы: .

Оценка

Основы регрессионного анализа—Справка | ArcGIS Desktop

Набор инструментов Пространственная статистика (Spatial Statistics) предоставляет эффективные инструменты количественного анализа пространственных структурных закономерностей. Инструмент Анализ горячих точек (Hot Spot Analysis), например, поможет найти ответы на следующие вопросы:

  • Есть ли в США места, где постоянно наблюдается высокая смертность среди молодежи?
  • Где находятся «горячие точки» по местам преступлений, вызовов 911 (см. рисунок ниже) или пожаров?
  • Где находятся места, в которых количество дорожных происшествий превышает обычный городской уровень?

Анализ данных звонков в службу 911, показывающий горячие точки (красным), холодные точки (синим) и локализацию пожарных/полиции, ответственных за реагирование (зеленые круги)

Каждый из вопросов спрашивает «где»? Следующий логический вопрос для такого типа анализа – «почему»?

  • Почему в некоторых местах США наблюдается повышенная смертность молодежи? Какова причина этого?
  • Можем ли мы промоделировать характеристики мест, на которые приходится больше всего преступлений, звонков в 911, или пожаров, чтобы помочь сократить эти случаи?
  • От каких факторов зависит повышенное число дорожных происшествий? Имеются ли какие-либо возможности для снижения числа дорожных происшествий в городе вообще, и в особо неблагополучных районах в частности?

Инструменты в наборе инструментов Моделирование пространственных отношений помогут вам ответить на вторую серию вопросов «почему». К этим инструментам относятся Метод наименьших квадратов и Географически взвешенная регрессия.

Пространственные отношения

Регрессионный анализ позволяет вам моделировать, проверять и исследовать пространственные отношения и помогает вам объяснить факторы, стоящие за наблюдаемыми пространственными структурными закономерностями. Вы также можете захотеть понять, почему люди постоянно умирают молодыми в некоторых регионах страны, и какие факторы особенно влияют на особенно высокий уровень диабета. При моделирование пространственных отношений, однако, регрессионный анализ также может быть пригоден для прогнозирования. Моделирование факторов, которые влияют на долю выпускников колледжей, на пример, позволяют вам сделать прогноз о потенциальной рабочей силе и их навыках. Вы также можете использовать регрессионный анализ для прогнозирования осадков или качества воздуха в случаях, где интерполяция невозможна из-за малого количества станций наблюдения (к примеру, часто отсутствую измерительные приборы вдоль горных хребтов и в долинах).

МНК (OLS) – наиболее известный метод регрессионного анализа. Это также подходящая отправная точка для всех способов пространственного регрессионного анализа. Данный метод позволяет построить глобальную модель переменной или процесса, которые вы хотите изучить или спрогнозировать (уровень смертности/осадки). Он создает уравнение регрессии, отражающее происходящий процесс. Географически взвешенная регрессия (ГВР) – один из нескольких методов пространственного регрессионного анализа, все чаще использующегося в географии и других дисциплинах. Метод ГВР (географически взвешенная регрессия) создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. При подходящем использовании, эти методы являются мощным и надежным статистическим средством для проверки и оценки линейных взаимосвязей.

Линейные взаимосвязи могут быть положительными или отрицательными. Если вы обнаружили, что количество поисково-спасательных операций увеличивается при возрастании среднесуточной температуры, такое отношение является положительным; имеется положительная корреляция. Другой способ описать эту положительную взаимосвязь – сказать, что количество поисково-спасательных операций уменьшается при уменьшении среднесуточной температуры. Соответственно, если вы установили, что число преступлений уменьшается при увеличении числа полицейских патрулей, данное отношение является отрицательным. Также, можно выразить это отрицательное отношение, сказав, что количество преступлений увеличивается при уменьшении количества патрулей. На рисунке ниже показаны положительные и отрицательные отношения, а также случаи, когда две переменные не связаны отношениями:

Диаграммы рассеивания: положительная связь, отрицательная связь и пример с 2 не связанными переменными.

Корреляционные анализы, и связанные с ними графики, отображенные выше, показывают силу взаимосвязи между двумя переменными. С другой стороны, регрессионные анализы дают больше информации: они пытаются продемонстрировать степень, с которой 1 или более переменных потенциально вызывают положительные или негативные изменения в другой переменной.

Применения регрессионного анализа

Регрессионный анализ может использоваться в большом количестве приложений:

  • Моделирование числа поступивших в среднюю школу для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
  • Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д., чтобы проинформировать полицию и снизить несчастные случаи.
  • Моделирование потерь от пожаров как функции от таких переменных как степень вовлеченности пожарных департаментов, время обработки вызова, или цена собственности. Если вы обнаружили, что время реагирования на вызов является ключевым фактором, возможно, существует необходимость создания новых пожарных станций. Если вы обнаружили, что вовлеченность – главный фактор, возможно, вам нужно увеличить оборудование и количество пожарных, отправляемых на пожар.

Существует три первостепенных причины, по которым обычно используют регрессионный анализ:

  • Смоделировать некоторые явления, чтобы лучше понять их и, возможно, использовать это понимание для оказания влияния на политику и принятие решений о наиболее подходящих действиях. Основная цель – измерить экстент, который при изменениях в одной или более переменных связанно вызывает изменения и в другой. Пример. Требуется понять ключевые характеристики ареала обитания некоторых видов птиц (например, осадки, ресурсы питания, растительность, хищники) для разработки законодательства, направленного на защиту этих видов.
  • Смоделировать некоторые явления, чтобы предсказать значения в других местах или в другое время. Основная цель – построить прогнозную модель, которая является как устойчивой, так и точной. Пример: Даны прогнозы населения и типичные погодные условия. Каким будет объем потребляемой электроэнергии в следующем году?
  • Вы также можете использовать регрессионный анализ для исследования гипотез. Предположим, что вы моделируете бытовые преступления для их лучшего понимания и возможно, вам удается внедрить политические меры, чтобы остановить их. Как только вы начинаете ваш анализ, вы, возможно, имеете вопросы или гипотезы, которые вы хотите проверить:
    • «Теория разбитого окна» указывает на то, что испорченная общественная собственность (граффити, разрушенные объекты и т.д.) притягивает иные преступления. Имеется ли положительное отношение между вандализмом и взломами в квартиры?
    • Имеется ли связь между нелегальным использованием наркотических средств и взломами в квартиры (могут ли наркоманы воровать, чтобы поддерживать свое существование)?
    • Совершаются ли взломы с целью ограбления? Возможно ли, что будет больше случаев в домохозяйствах с большей долей пожилых людей и женщин?
    • Люди больше подвержены риску ограбления, если они живут в богатой или бедной местности?
    Вы можете использовать регрессионный анализ, чтобы исследовать эти взаимосвязи и ответить на ваши вопросы.

Термины и концепции регрессионного анализа

Невозможно обсуждать регрессионный анализ без предварительного знакомства с основными терминами и концепциями, характерными для регрессионной статистики:

Уравнение регрессии. Это математическая формула, применяемая к независимым переменным, чтобы лучше спрогнозировать зависимую переменную, которую необходимо смоделировать. К сожалению, для тех ученых, кто думает, что х и у это только координаты, независимая переменная в регрессионном анализе всегда обозначается как y, а зависимая – всегда X. Каждая независимая переменная связана с коэффициентами регрессии, описывающими силу и знак взаимосвязи между этими двумя переменными. Уравнение регрессии может выглядеть следующим образом (у – зависимая переменная, Х – независимые переменные, β – коэффициенты регрессии), ниже приводится описание каждого из этих компонентов уравнения регрессии):

Элементы Уравнения регрессии по методу наименьших квадратов
  • Зависимая переменная (y) – это переменная, описывающая процесс, который вы пытаетесь предсказать или понять (бытовые кражи, осадки). В уравнении регрессии эта переменная всегда находится слева от знака равенства. В то время, как можно использовать регрессию для предсказания зависимой величины, вы всегда начинаете с набора хорошо известных у-значений и используете их для калибровки регрессионной модели. Известные у-значения часто называют наблюдаемыми величинами.
  • Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных. В уравнении регрессии они располагаются справа от знака равенства и часто называются независимыми переменными. Зависимая переменная – это функция независимых переменных. Если вас интересует прогнозирование годового оборота определенного магазина, можно включить в модель независимые переменные, отражающие, например, число потенциальных покупателей, расстояние до конкурирующих магазинов, заметность магазина и структуру спроса местных жителей.
  • Коэффициенты регрессии (β) – это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой. Предположим, что вы моделируете частоту пожаров как функцию от солнечной радиации, растительного покрова, осадков и экспозиции склона. Вы можете ожидать положительную взаимосвязь между частотой пожаров и солнечной радиацией (другими словами, чем больше солнца, тем чаще встречаются пожары). Если отношение положительно, знак связанного коэффициента также положителен. Вы можете ожидать негативную связь между частотой пожаров и осадками (другими словами, для мест с большим количеством осадков характерно меньше лесных пожаров). Коэффициенты отрицательных отношений имеют знак минуса. Когда взаимосвязь сильная, значения коэффициентов достаточно большие (относительно единиц независимой переменной, с которой они связаны). Слабая взаимосвязь описывается коэффициентами с величинами около 0; β0 – это пересечение линии регрессии. Он представляет ожидаемое значение зависимой величины, если все независимые переменные равны 0.

P-значения. Большинство регрессионных методов выполняют статистический тест для расчета вероятности, называемой р-значением, для коэффициентов, связанной с каждой независимой переменной. Нулевая гипотеза данного статистического теста предполагает, что коэффициент незначительно отличается от нуля (другими словами, для всех целей и задач, коэффициент равен нулю, и связанная независимая переменная не может объяснить вашу модель). Маленькие величины р-значений отражают маленькие вероятности и предполагают, что коэффициент действительно важен для вашей модели со значением, существенно отличающимся от 0 (другими словами, маленькие величины р-значений свидетельствуют о том, что коэффициент не равен 0). Вы бы сказали, что коэффициент с р-значением, равным 0,01, например, статистически значимый для 99 % доверительного интервала; связанные переменные являются эффективным предсказателем. Переменные с коэффициентами около 0 не помогают предсказать или смоделировать зависимые величины; они практически всегда удаляются из регрессионного уравнения, если только нет веских причин сохранить их.

R2/R-квадрат: Статистические показатели составной R-квадрат и выровненный R-квадрат вычисляются из регрессионного уравнения, чтобы качественно оценить модель. Значение R-квадрат лежит в пределах от 0 до 100 процентов. Если ваша модель описывает наблюдаемые зависимые переменные идеально, R-квадрат равен 1.0 (и вы, несомненно, сделали ошибку; возможно, вы использовали модификацию величины у для предсказания у). Вероятнее всего, вы увидите значения R-квадрат в районе 0,49, например, можно интерпретировать подобный результат как «Это модель объясняет 49 % вариации зависимой величины». Чтобы понять, как работает R-квадрат, постройте график, отражающий наблюдаемые и оцениваемые значения у, отсортированные по оцениваемым величинам. Обратите внимание на количество совпадений. Этот график визуально отображает, насколько хорошо вычисленные значения модели объясняют изменения наблюдаемых значений зависимых переменных. Просмотрите иллюстрацию. Выверенный R-квадрат всегда немного меньше, чем составной R-квадрат, т.к. он отражает всю сложность модели (количество переменных) и связан с набором исходных данных. Следовательно, выверенный R-квадрат является более точной мерой для оценки результатов работы модели.

Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки ε. Просмотрите иллюстрацию. Известные значения зависимой переменной используются для построения и настройки модели регрессии. Используя известные величины зависимой переменной (Y) и известные значений для всех независимых переменных (Хs), регрессионный инструмент создаст уравнение, которое предскажет те известные у-значения как можно лучше. Однако предсказанные значения редко точно совпадают с наблюдаемыми величинами. Разница между наблюдаемыми и предсказываемыми значениями у называется невязка или отклонение. Величина отклонений регрессионного уравнения – одно из измерений качества работы модели. Большие отклонения говорят о ненадлежащем качестве модели.

Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, которые вы пытаетесь смоделировать или понять, запуская инструмент регрессии, чтобы определить, какие величины являются эффективными предсказателями. Затем пошаговое удаление и/или добавление переменных до тех пор, пока вы не найдете наилучшим образом подходящую регрессионную модель. Т.к. процесс создания модели часто исследовательский, он никогда не должен становиться простым «подгоном» данных. Он должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл. Вы должным быть способны определить ожидаемую взаимосвязь между каждой потенциальной независимой переменной и зависимой величиной до непосредственного анализа, и должны задать себе дополнительные вопросы, когда эти связи не совпадают.

Примечание:

Если вы никогда не выполняли регрессионный анализ раньше, рекомендуем загрузить Руководство о регрессионному анализу и пройти шаги 1-5.

Особенности регрессионного анализа

Регрессия МНК (OLS) – это простой метод анализа с хорошо проработанной теорией, предоставляющий эффективные возможности диагностики, которые помогут вам интерпретировать результаты и устранять неполадки. Однако, МНК надежен и эффективен, если ваши данные и регрессионная модель удовлетворяют всем предположениям, требуемым для этого метода (смотри таблицу внизу). Пространственные данные часто нарушают предположения и требования МНК, поэтому важно использовать инструменты регрессии в союзе с подходящими инструментами диагностики, которые позволяют оценить, является ли регрессия подходящим методом для вашего анализа, а приведенная структура данных и модель может быть применена.

Как регрессионная модель может не работать

Серьезной преградой для многих регрессионных моделей является ошибка спецификации. Модель ошибки спецификации – это такая неполная модель, в которой отсутствуют важные независимые переменные, поэтому она неадекватно представляет то, что мы пытаемся моделировать или предсказывать (зависимую величину, у). Другими словами, регрессионная модель не рассказывает вам всю историю. Ошибка спецификации становится очевидной, когда в отклонениях вашей регрессионной модели наблюдается статистически значимая пространственная автокорреляция, или другими словами, когда отклонения вашей модели кластеризуются в пространстве (недооценки – в одной области изучаемой территории, а переоценки – в другой). Благодаря картографированию невязок регрессии или коэффициентов, связанных с географически взвешенной регрессией, можно обратить внимание на какие-то нюансы, которые вы упустили ранее. Запуск Анализа горячих точек по отклонениям регрессии также может раскрыть разные пространственные режимы, которые можно моделировать при помощи метода наименьших квадратов с региональными показателями или исправлять с использованием географически взвешенной регрессии. Предположим, когда вы картографируете отклонения вашей регрессионной модели, вы видите, что модель всегда заново предсказывает значения в горах, и, наоборот, в долинах, что может значить, что отсутствуют данные о рельефе. Однако может случиться так, что отсутствующие переменные слишком сложны для моделирования или их невозможно подсчитать или слишком трудно измерить. В этих случаях, можно воспользоваться ГВР (географически взвешенной регрессией) или другой пространственной регрессией, чтобы получить хорошую модель.

В следующей таблице перечислены типичные проблемы с регрессионными моделями и инструменты в ArcGIS:

Типичные проблемы с регрессией, последствия и решения

Ошибки спецификации относительно независимых переменных.

Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять.

Создайте карту и проверьте невязки МНК и коэффициенты ГВР или запустите Анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных.

Нелинейные взаимосвязи. Просмотрите иллюстрацию.

МНК и ГВР – линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми – нелинейны, результирующая модель будет работать плохо.

Создайте диаграмму рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделите особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин. Просмотрите иллюстрацию. Альтернативно, используйте нелинейный метод регрессии.

Выбросы данных. Просмотрите иллюстрацию.

Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии.

Создайте диаграмму рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Скорректировать или удалить выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запустить регрессию с и без выбросов, чтобы оценить, как это влияет на результат.

Нестационарность. Вы можете обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B (см. рисунок).

Если взаимосвязь между вашими зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты.

Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок. Просмотрите иллюстрацию. Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), у вас есть статистически значимая региональная вариация и вам необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструмента Географически взвешенная регрессия.

Мультиколлинеарность. Одна или несколько независимых переменных излишни. Просмотрите иллюстрацию.

Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели.

Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки. Просмотрите иллюстрацию.

Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений. Просмотрите иллюстрацию.

Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер.

Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Просмотрите иллюстрацию.

Пространственно автокоррелированные отклонения. Просмотрите иллюстрацию.

Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно.

Запустите инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели). Просмотрите иллюстрацию.

Нормальное распределение систематической ошибки. Просмотрите иллюстрацию.

Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны.

Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в вашей модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые вы моделируете, являются нелинейными. Проверьте карту отклонений и возможно карту с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Просмотр диаграмм рассеяния и поиск нелинейных отношений.

Типичные проблемы с регрессией и их решения

Важно протестировать модель на каждую из проблем, перечисленных выше. Результаты могут быть на 100 % неправильны, если игнорируются проблемы, упомянутые выше.

Примечание:

Если вы никогда не выполняли регрессионный анализ раньше, рекомендуем загрузить Руководство по регрессионному анализу.

Пространственная регрессия

Для пространственных данных характерно 2 свойства, которые затрудняют (не делают невозможным) применение традиционных (непространственных) методов, таких как МНК:

  • Географические объекты довольно часто пространственно автокоррелированы. Это означает, что объекты, расположенные ближе друг к другу более похожи между собой, чем удаленные объекты. Это создает переоцененный тип систематических ошибок для традиционных моделей регрессии.
  • География важна, и часто наиболее важные процессы нестационарны. Эти процессы протекают по-разному в разных частях области изучения. Эта характеристика пространственных данных может относиться как к региональным вариациям, так и к нестационарности.

Настоящие методы пространственной регрессии были разработаны, чтобы устойчиво справляться с этими двумя характеристиками пространственных данных и даже использовать эти свойства пространственных данных, чтобы улучшать моделирование взаимосвязей. Некоторые методы пространственной регрессии эффективно имеют дело с 1 характеристикой (пространственная автокорреляция), другие – со второй (нестационарность). В настоящее время, нет методов пространственной регрессии, которые эффективны с обеими характеристиками. Для правильно настроенной модели ГВР пространственная автокорреляция обычно не является проблемой.

Пространственная автокорреляция

Существует большая разница в том, как традиционные и пространственные статистические методы смотрят на пространственную автокорреляцию. Традиционные статистические методы видят ее как плохую вещь, которая должна быть устранена, т.к. пространственная автокорреляция ухудшает предположения многих традиционных статистических методов. Для географа или ГИС-аналитика, однако, пространственная автокорреляция является доказательством важности пространственных процессов; это интегральная компонента данных. Удаляя пространство, мы удаляем пространственный контекст данных; это как только половина истории. Пространственные процессы и доказательство пространственных взаимосвязей в данных представляют собой особый интерес, и поэтому пользователи ГИС с радостью используют инструменты пространственного анализа данных. Однако, чтобы избежать переоцененный тип систематических ошибок в вашей модели, вы должны определить полный набор независимых переменных, которые эффективно опишут структуру ваших данных. Если вы не можете определить все эти переменные, скорее всего, вы увидите существенную пространственную автокорреляцию среди отклонений модели. К сожалению, вы не можете доверять результатам регрессии, пока все не устранено. Используйте инструмент Пространственная автокорреляция, чтобы выполнить тест на статистически значимую пространственную автокорреляцию для отклонений в вашей регрессии.

Как минимум существует 3 направления, как поступать с пространственной автокорреляцией в невязках регрессионных моделей.

  1. Изменять размер выборки до тех пор, пока не удастся устранить статистически значимую пространственную автокорреляцию. Это не гарантирует, что в анализе будет полностью устранена проблема пространственной автокорреляции, но она значительно меньше, когда пространственная автокорреляция удалена из зависимых и независимых переменных. Это традиционный статистический подход к устранению пространственной автокорреляции и только подходит, если пространственная автокорреляция является результатом избыточности данных.
  2. Изолируйте пространственные и непространственные компоненты каждой входящей величины, используя методы фильтрации в пространственной регрессии. Пространство удалено из каждой величины, но затем его возвращают обратно в регрессионную модель в качестве новой переменной, отвечающей за пространственные эффекты/пространственную структуру. ArcGIS в настоящее время не предоставляет возможности пров

Регрессия (математика) — Википедия

У этого термина существуют и другие значения, см. Регрессия.

Регре́ссия (лат. regressio — обратное движение, отход) в теории вероятностей и математической статистике — односторонняя стохастическая зависимость, устанавливающая соответствие между случайными переменными

[1], то есть математическое выражение, отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении x=xi{\displaystyle x=x_{i}} наблюдается ni{\displaystyle n_{i}} значений
y
i1yini величины y, то зависимость средних арифметических y¯i=(yi1+…+yini)/ni{\displaystyle {\bar {y}}_{i}=(y_{i1}+…+y_{in_{i}})/n_{i}} от x=xi{\displaystyle x=x_{i}} и является регрессией в статистическом понимании этого термина[2].

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (

regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

g(x)=E(Y∣X=x).{\displaystyle g(x)=E(Y\mid X=x).}

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть ни что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ2

2, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным

E(Y∣X=x)=μ2+ϱσ2σ1(x−μ1),{\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1}),}

и дисперсией

var(Y∣X=x)=σ22(1−ϱ2).{\displaystyle \mathrm {var} (Y\mid X=x)=\sigma _{2}^{2}(1-\varrho ^{2}).}

В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения – это линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии[3]. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Представим зависимость y от x в виде линейной модели первого порядка:

y=β0+β1x+ε.{\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon .}

Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:

yi^=b0+b1xi,i=1,…,n{\displaystyle {\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n}

где y^{\displaystyle {\widehat {y}}} означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели. Определим также ei=yi−yi^{\displaystyle e_{i}=y_{i}-{\widehat {y_{i}}}} — значение ошибки аппроксимации для i{\displaystyle i}-го наблюдения.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[4][5].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

b1=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2=cov(x,y)σx2;{\displaystyle b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\mathrm {cov} (x,y)}{\sigma _{x}^{2}}};}
b0=y¯−b1x¯;{\displaystyle b_{0}={\bar {y}}-b_{1}{\bar {x}};}
se2=∑i=1n(yi−y^)2n−2;{\displaystyle s_{e}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\widehat {y}})^{2}}{n-2}};}
sb0=se1n+x¯2∑i=1n(xi−x¯)2;{\displaystyle s_{b_{0}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}
sb1=se1∑i=1n(xi−x¯)2,{\displaystyle s_{b_{1}}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}},}

здесь средние значения определяются как обычно: x¯=∑i=1nxin{\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}}, y¯=∑i=1nyin{\displaystyle {\bar {y}}={\frac {\sum _{i=1}^{n}y_{i}}{n}}} и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t=b/sb{\displaystyle t=b/s_{b}}. Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b1{\displaystyle b_{1}} — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b0{\displaystyle b_{0}}, то прямая проходит через начало координат и оценка углового коэффициента равна

b=∑i=1nxiyi∑i=1nxi2{\displaystyle b={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}},

а её стандартной ошибки

sb=se1∑i=1nxi2.{\displaystyle s_{b}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}x_{i}^{2}}}}.}
Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии y^{\displaystyle {\widehat {y}}}. Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

sy^=se1n+(x−x¯)2∑i=1n(xi−x¯)2;{\displaystyle s_{\widehat {y}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

Теперь можно вычислить 100⋅(1−α2){\displaystyle 100\cdot \left(1-{\frac {\alpha }{2}}\right)}-процентный доверительный интервал для значения уравнения регрессии в точке x:

y^−t(1−α/2,n−2)sy^<y<y^+t(1−α/2,n−2)sy^{\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}}<y<{\widehat {y}}+t_{(1-\alpha /2,n-2)}s_{\widehat {y}}},

где t(1−α/2, n−2) — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

sY=se1m+1n+(x−x¯)2∑i=1n(xi−x¯)2;{\displaystyle s_{Y}=s_{e}{\sqrt {{\frac {1}{m}}+{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

Здесь m — кратность измерения y при данном x. И 100⋅(1−α2){\displaystyle 100\cdot \left(1-{\frac {\alpha }{2}}\right)}-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

y^−t(1−α/2,n−2)sY<y<y^+t(1−α/2,n−2)sY{\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y}<y<{\widehat {y}}+t_{(1-\alpha /2,n-2)}s_{Y}}.

На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

Можно строго доказать, что, если условное матожидание E(Y∣X=x){\displaystyle E(Y\mid X=x)} некоторой двумерной случайной величины (X, Y) является линейной функцией от x{\displaystyle x}, то это условное матожидание обязательно представимо в виде E(Y∣X=x)=μ2+ϱσ2σ1(x−μ1){\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1})}, где E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ.

Более того, для уже упомянутой ранее линейной модели Y=β0+β1X+ε{\displaystyle Y=\beta _{0}+\beta _{1}X+\varepsilon } , где X{\displaystyle X} и ε{\displaystyle \varepsilon } — независимые случайные величины, а ε{\displaystyle \varepsilon } имеет нулевое матожидание (и произвольное распределение), можно доказать, что E(Y∣X=x)=β0+β1x{\displaystyle E(Y\mid X=x)=\beta _{0}+\beta _{1}x}. Тогда с помощью указанного ранее равенства можно получить формулы для β0{\displaystyle \beta _{0}} и β1{\displaystyle \beta _{1}}: β1=ϱσ2σ1{\displaystyle \beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}},

β0=μ2−β1μ1{\displaystyle \beta _{0}=\mu _{2}-\beta _{1}\mu _{1}}.

Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами β0{\displaystyle \beta _{0}} и β1{\displaystyle \beta _{1}}, можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.

  1. Фёрстер Э., Рёнц Б., Методы корреляционного и регрессионного анализа, 1983, с. 15.
  2. ↑ БСЭ. Статья «Регрессия»
  3. ↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
  4. ↑ Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
  5. ↑ Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов. — М.: Финансы и статистика, 1983. — 304 с. — (Библиотечка иностранных книг для экономистов и статистиков).

Как легко понять логистическую регрессию / .io corporate blog / Habr

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.


Основная идея логистической регрессии

В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса (см. Множественная логистическая регрессия для задач с большим количеством классов) и вероятность, которую мы будем определять, вероятности того, что некоторое значение принадлежит классу «+». И конечно . Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].

Основная идея логистической регрессии заключается в том, что пространство исходных значений может быть разделено линейной границей (т.е. прямой) на две соответствующих классам области. Итак, что же имеется ввиду под линейной границей? В случае двух измерений — это просто прямая линия без изгибов. В случае трех — плоскость, и так далее. Эта граница задается в зависимости от имеющихся исходных данных и обучающего алгоритма. Чтобы все работало, точки исходных данных должны разделяться линейной границей на две вышеупомянутых области. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми. Посмотрите на изображение.

Указанная разделяющая плоскость называется линейным дискриминантом, так как она является линейной с точки зрения своей функции, и позволяет модели производить разделение, дискриминацию точек на различные классы.

Если невозможно произвести линейное разделение точек в исходном пространстве, стоит попробовать преобразовать векторы признаков в пространство с большим количеством измерений, добавив дополнительные эффекты взаимодействия, члены более высокой степени и т.д. Использование линейного алгоритма в таком пространстве дает определенные преимущества для обучения нелинейной функции, поскольку граница становится нелинейной при возврате в исходное пространство.

Но каким образом используется линейная граница в методе логистической регрессии для количественной оценки вероятности принадлежности точек данных к определенному классу?
Как происходит разделение

Во-первых, давайте попробуем понять геометрический подтекст «разделения» исходного пространства на две области. Возьмем для простоты (в отличие от показанного выше 
3-мерного графика) две исходные переменные —  и , тогда функция, соответствующая границе, примет вид:

Важно отметить, что и  и  являются исходными переменными, а выходная переменная не является частью исходного пространства в отличие от метода линейной регрессии.

Рассмотрим точку . Подставляя значения  и  в граничную функцию, получим результат . Теперь, в зависимости от положения следует рассмотреть три варианта:
  • лежит в области, ограниченной точками класса «+». Тогда , будет положительной, находясь где-то в пределах (0,). С математической точки зрения, чем больше величина этого значения, тем больше расстояние между точкой и границей. А это означает большую вероятность того, что принадлежит классу «+». Следовательно, будет находиться в пределах (0,5, 1].
  • лежит в области, ограниченной точками класса «-«. Теперь, будет отрицательной, находясь в пределах (-, 0). Но, как и в случае с положительным значением, чем больше величина выходного значения по модулю, тем больше вероятность, что принадлежит классу «-«, и  находится в интервале [0, 0.5).
  • лежит на самой границе. В этом случае, . Это означает, что модель действительно не может определить, принадлежит ли к классу «+» или к классу «-«. И в результате, будет равняться 0,5.

Итак, мы имеем функцию, с помощью которой возможно получить значение в пределах (-,) имея точку исходных данных. Но каким образом преобразовать полученное значение в вероятность , пределы которой [0, 1]? Ответ — с помощью функции отношения шансов (OR).

Обозначим вероятностью происходящего события . Тогда, отношение шансов () определяется из , а это — отношение вероятностей того, произойдет ли событие или не произойдет. Очевидно, что вероятность и отношение шансов содержат одинаковую информацию. Но, в то время как находится в пределах от 0 до 1, находится в пределах от 0 до .

Это значит, что необходимо еще одно действие, так как используемая нами граничная функция выдает значения от — до . Далее следует вычислить логарифм , что называется логарифмом отношения шансов. В математическом смысле, имеет пределы от 0 до , а — от — до .

Таким образом, мы получили способ интерпретации результатов, подставленных в граничную функцию исходных значений. В используемой нами модели граничная функция определяет логарифм отношения шансов класса «+». В сущности, в нашем двухмерном примере, при наличии точки , алгоритм логистической регрессии будет выглядеть следующим образом:



Получив значение в шаге 1, можно объединить шаги 2 и 3:

Правая часть уравнения, указанного выше, называется логистической функцией. Отсюда и название, данное этой модели обучения.
Как обучается функция

Остался не отвеченным вопрос: «Каким образом обучается граничная функция ?» Математическая основа этого выходит за рамки статьи, но общая идея заключается в следующем:
Рассмотрим функцию , где — точка данных обучающей выборки. В простой форме  можно описать так:
если является частью класса «+», (здесь — выходное значение, полученное из модели логистической регрессии). Если является частью класса «-«, .

Функция проводит количественную оценку вероятности того, что точка обучающей выборки классифицируется моделью правильным образом. Поэтому, среднее значение для всей обучающей выборки показывает вероятность того, что случайная точка данных будет корректно классифицирована системой, независимо от возможного класса.

Скажем проще — механизм обучения логистической регрессии старается максимизировать среднее значение . А название этого метода — метод максимального правдоподобия. Если вы не математик, то вы сможете понять каким образом происходит оптимизация, только если у вас есть хорошее представление о том, что именно оптимизируется.

Конспект

  1. Логистическая регрессия — одно из статистических методов классификации с использованием линейного дискриминанта Фишера.
  2. Значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу.
  3. механизм обучения логистической регрессии старается максимизировать среднее значение .

Базовые принципы машинного обучения на примере линейной регрессии

Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Формализмы



Машинное обучение — это подраздел искусственного интеллекта, в котором изучаются алгоритмы, способные обучаться без прямого программирования того, что нужно изучать. Линейная регрессия является типичным представителем алгоритмов машинного обучения. Для начала ответим на вопрос «а что вообще значит обучаться?». Ответ на этот вопрос мы возьмем из книги 1997 года (стоит отметить, что оглавление этой книги не сильно отличается от современных книг по машинному обучению).
Говорят, что программа обучается на опыте относительно класса задач в смысле меры качества , если при решении задачи качество, измеряемое мерой , возрастает при демонстрации нового опыта .

Можно выделить следующие задачи , решаемые машинным обучением: обучение с учителем, обучение без учителя, обучение с подкреплением, активное обучение, трансфер знаний и т.д. Регрессия (как и классификация) относится к классу задач обучения с учителем, когда по заданному набору признаков наблюдаемого объекта необходимо спрогнозировать некоторую целевую переменную. Как правило, в задачах обучения с учителем, опыт представляется в виде множества пар признаков и целевых переменных: . В случае линейной регрессии признаковое описание объекта — это действительный вектор , а целевая переменная — это скаляр . Самой простой мерой качества для задачи регрессии является , где — это наша оценка реального значения целевой переменной.

У нас есть задача, данные и способ оценки программы/модели. Давайте определим, что такое модель, и что значит обучить модель. Предиктивная модель – это параметрическое семейство функций (семейство гипотез):


где
  • — множество параметров

Таким образом, из большого семейства гипотез мы должны выбрать какую-то одну конкретную, которая с точки зрения меры является лучшей. Процесс такого выбора назовем алгоритмом обучения:


Получается, что алгоритм обучения — это отображение из набора данных в пространство гипотез. Обычно процесс обучения с учителем состоит из двух шагов:
  1. обучение: ;
  2. применение: .

Часто для обучения модели пользуются принципом минимизации эмпирического риска
. Риском гипотезы называют ожидаемое значение функции стоимости :


Но, к сожалению, такой интеграл не посчитать, т.к. распределение неизвестно, иначе и задачи не было бы. Но мы можем посчитать эмпирическую оценку риска, как среднее значение функции стоимости:


Тогда, согласно принципу минимизации эмпирического риска, мы должны выбрать такую гипотезу , которая минимизирует :


У данного принципа есть существенный недостаток, решения найденные таким путем будут склонны к переобучению. Мы говорим, что модель обладает обобщающей способностью, тогда, когда ошибка на новом (тестовом) наборе данных (взятом из того же распределения ) мала, или же предсказуема. Переобученная модель не обладает обобщающей способностью, т.е. на обучающем наборе данных ошибка мала, а на тестовом наборе данных ошибка существенно больше.

Линейная регрессия


Давайте ограничим пространство гипотез только линейными функциями от аргумента, будем считать, что нулевой признак для всех объектов равен единице :


Эмпирический риск (функция стоимости) принимает форму среднеквадратичной ошибки:


строки матрицы — это признаковые описания наблюдаемых объектов. Один из алгоритмов обучения такой модели — это метод наименьших квадратов. Вычислим производную функции стоимости:


приравняем к нулю и найдем решение в явном виде:


Поздравляю, дамы и господа, мы только что с вами вывели алгоритм машинного обучения. Реализуем же этот алгоритм. Начнем с датасета, состоящего всего из одного признака. Будем брать случайную точку на синусе и добавлять к ней шум — таким образом получим целевую переменную; признаком в этом случае будет координата :
def generate_wave_set(n_support=1000, n_train=25, std=0.3):
    data = {}
    # выберем некоторое количество точек из промежутка от 0 до 2*pi
    data['support'] = np.linspace(0, 2*np.pi, num=n_support)
    # для каждой посчитаем значение sin(x) + 1
    # это будет ground truth
    data['values'] = np.sin(data['support']) + 1
    # из support посемплируем некоторое количество точек с возвратом, это будут признаки
    data['x_train'] = np.sort(np.random.choice(data['support'], size=n_train, replace=True))
    # опять посчитаем sin(x) + 1 и добавим шум, получим целевую переменную
    data['y_train'] = np.sin(data['x_train']) + 1 + np.random.normal(0, std, size=data['x_train'].shape[0])
    return data

data = generate_wave_set(1000, 250)

Отрисовка графика
print 'Shape of X is', data['x_train'].shape
print 'Head of X is', data['x_train'][:10]

margin = 0.3
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')
plt.xlim(data['x_train'].min() - margin, data['x_train'].max() + margin)
plt.ylim(data['y_train'].min() - margin, data['y_train'].max() + margin)
plt.legend(loc='upper right', prop={'size': 20})
plt.title('True manifold and noised data')
plt.xlabel('x')
plt.ylabel('y')
plt.show()


А теперь реализуем алгоритм обучения, используя магию NumPy:

# добавим колонку единиц к единственному столбцу признаков
X = np.array([np.ones(data['x_train'].shape[0]), data['x_train']]).T
# перепишем, полученную выше формулу, используя numpy
# шаг обучения - в этом шаге мы ищем лучшую гипотезу h
w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), data['y_train'])
# шаг применения: посчитаем прогноз
y_hat = np.dot(w, X.T)
Отрисовка графика
margin = 0.3
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')

plt.plot(data['x_train'], y_hat, 'r', alpha=0.8, label='fitted')

plt.xlim(data['x_train'].min() - margin, data['x_train'].max() + margin)
plt.ylim(data['y_train'].min() - margin, data['y_train'].max() + margin)
plt.legend(loc='upper right', prop={'size': 20})
plt.title('Fitted linear regression')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

Как мы видим, линия не очень-то совпадает с настоящей кривой. Среднеквадратичная ошибка равна 0.26704 условных единиц. Очевидно, что если бы вместо линии мы использовали кривую третьего порядка, то результат был бы куда лучше. И, на самом деле, с помощью линейной регрессии мы можем обучать нелинейные модели.

Полиномиальная регрессия


В линейной регрессии мы ограничивали пространство гипотез только линейными функциями от признаков. Давайте теперь расширим пространство гипотез до всех полиномов степени . Тогда в нашем случае, когда количество признаков равно одному , пространство гипотез будет выглядеть следующим образом:


Если заранее предрассчитать все степени признаков, то задача опять сводится к описанному выше алгоритму — методу наименьших квадратов. Попробуем отрисовать графики нескольких полиномов разных степеней.
# список степеней p полиномов, который мы протестируем
degree_list = [1, 2, 3, 5, 7, 10, 13]

cmap = plt.get_cmap('jet')
colors = [cmap(i) for i in np.linspace(0, 1, len(degree_list))]

margin = 0.3
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')

w_list = []
err = []
for ix, degree in enumerate(degree_list):
    # список с предрасчитанными степенями признака
    dlist = [np.ones(data['x_train'].shape[0])] + \
                map(lambda n: data['x_train']**n, range(1, degree + 1))
    X = np.array(dlist).T
    w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), data['y_train'])
    w_list.append((degree, w))
    y_hat = np.dot(w, X.T)
    err.append(np.mean((data['y_train'] - y_hat)**2))
    plt.plot(data['x_train'], y_hat, color=colors[ix], label='poly degree: %i' % degree)

Отрисовка графика
plt.xlim(data['x_train'].min() - margin, data['x_train'].max() + margin)
plt.ylim(data['y_train'].min() - margin, data['y_train'].max() + margin)
plt.legend(loc='upper right', prop={'size': 20})
plt.title('Fitted polynomial regressions')
plt.xlabel('x')
plt.ylabel('y')
plt.show() 


На графике мы можем наблюдать сразу два феномена. Пока не обращайте внимание на 13-ую степень полинома. При увеличении степени полинома, средняя ошибка продолжает уменьшаться, хотя мы вроде были уверены, что именно кубический полином должен лучше всего описывать наши данные.

p error
1 0.26704
2 0.22495
3 0.08217
5 0.05862
7 0.05749
10 0.0532
13 5.76155

Это явный признак переобучения, который можно заметить по визуализации даже не используя тестовый набор данных: при увеличении степени полинома выше третьей модель начинает интерполировать данные, вместо экстраполяции. Другими словами, график функции проходит точно через точки из тренировочного набора данных, причем чем выше степень полинома, тем через большее количество точек он проходит. Степень полинома отражает сложность модели. Таким образом, сложные модели, у которых степеней свободы достаточно много, могут попросту запомнить весь тренировочный набор, полностью теряя обобщающую способность. Это и есть проявление негативной стороны принципа минимизации эмпирического риска.

Вернемся к полиному 13-ой степени, с ним явно что-то не так. По идее, мы ожидаем, что полином 13-ой степени будет описывать тренировочный набор данных еще лучше, но результат показывает, что это не так. Из курса линейной алгебры мы помним, что обратная матрица существует только для несингулярных матриц, т.е. тех, у которых нет линейной зависимости колонок или строк. В методе наименьших квадратов нам необходимо инвертировать следующую матрицу: . Для тестирования на линейную зависимость или мультиколлинеарность можно использовать число обусловленности матрицы. Один из способов оценки этого числа для матриц — это отношение модуля максимального собственного числа матрицы к модулю минимального собственного числа. Большое число обусловленности матрицы, или же наличие одного или нескольких собственных чисел близких к нулю свидетельствует о наличии мультиколлинеарности (или нечеткой мультиколлиниарности, когда ). Такие матрицы называются слабо обусловленными, а задача — некорректно поставленной. При инвертировании такой матрицы, решения имеют большую дисперсию. Это проявляется в том, что при небольшом изменении начальной матрицы, инвертированные будут сильно отличаться друг от друга. На практике это всплывет тогда, когда к 1000 семплов, вы добавите всего один, а решение МНК будет совсем другим. Посмотрим на собственные числа полученной матрицы, нас там ждет сюрприз:

np.linalg.eigvals(np.cov(X[:, 1:].T))
Out[10]:
array([  
         9.29965299e+17+0.j        ,   4.04567033e+13+0.j        ,
         5.44657111e+09+0.j        ,   3.54104756e+06+0.j        ,
         8.36745166e+03+0.j        ,   6.82745279e+01+0.j        ,
         8.88434986e-01+0.j        ,   2.42827315e-02+0.00830052j,
         2.42827315e-02-0.00830052j,   1.17621840e-03+0.j        ,
         1.72254789e-04+0.j        ,  -5.68384880e-06+0.j        ,
         2.39611454e-07+0.j        ])


Все так, numpy вернул два комплекснозначных собственных значения, что идет вразрез с теорией. Для симметричных и положительно определенных матриц (каковой и является матрица ) все собственные значения должны быть действительные. Возможно, это произошло из-за того, что при работе с большими числами матрица стала слегка несимметричной, но это не точно ¯\_(ツ)_/¯. Если вы вдруг найдете причину такого поведения нумпая, пожалуйста, напишите в комменте.

UPDATE (один из членов ложи по имени Андрей Оськин, с ником в слаке skoffer, без аккаунта на хабре, подсказывает):

Есть только одно замечание — не надо пользоваться формулой `(X^T X^{-1}) X^T` для вычисления коэффициентов линейной регрессии. Проблема с расходящимися значениями хорошо известна и на практике используют `QR` или `SVD`.

Ну, то есть вот такой кусок кода даст вполне приличный результат:

degree = 13
dlist = [np.ones(data['x_train'].shape[0])] + \
                list(map(lambda n: data['x_train']**n, range(1, degree + 1)))
X = np.array(dlist).T

q, r = np.linalg.qr(X)

y_hat = np.dot(np.dot(q, q.T), data['y_train'])
plt.plot(data['x_train'], y_hat, label='poly degree: %i' % degree)

Перед тем как перейти к следующему разделу, давайте посмотрим на амплитуду параметров полиномиальной регрессии. Мы увидим, что при увеличении степени полинома, размах значений коэффициентов растет чуть ли не экспоненциально. Да, они еще и скачут в разные стороны.Визуализация коэффициентов

Регуляризация


Регуляризация — это способ уменьшить сложность модели чтобы предотвратить переобучение или исправить некорректно поставленную задачу. Обычно это достигается добавлением некоторой априорной информации к условию задачи. Например так:


  • — это коэффициент регуляризации, то, насколько сильно мы хотим учитывать условие

На графиках мы увидели, что амплитуда значений коэффициентов слишком большая, попробуем ее уменьшить, добавив ограничение на норму вектора параметров.


Новая функция стоимости примет вид:


Вычислим производную по параметрам:

Линейная регрессия — Википедия

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y{\displaystyle y} от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x{\displaystyle x} с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. Необходимо отметить, что с эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Регрессионная модель

y=f(x,b)+ε, E(ε)=0{\displaystyle y=f(x,b)+\varepsilon ,~E(\varepsilon )=0},

где b{\displaystyle b} — параметры модели, ε{\displaystyle \varepsilon } — случайная ошибка модели; называется линейной регрессией, если функция регрессии f(x,b){\displaystyle f(x,b)} имеет вид

f(x,b)=b0+b1x1+b2x2+…+bkxk{\displaystyle f(x,b)=b_{0}+b_{1}x_{1}+b_{2}x_{2}+…+b_{k}x_{k}},

где bj{\displaystyle b_{j}} — параметры (коэффициенты) регрессии, xj{\displaystyle x_{j}} — регрессоры (факторы модели), k — количество факторов модели[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

∀j bj=∂f∂xj=const{\displaystyle \forall j\quad ~b_{j}={\frac {\partial f}{\partial x_{j}}}=const}

Параметр b0{\displaystyle b_{0}}, при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f(x,b)=b1x1+b2x2+…+bkxk=∑j=1kbjxj=xTb{\displaystyle f(x,b)=b_{1}x_{1}+b_{2}x_{2}+\ldots +b_{k}x_{k}=\sum _{j=1}^{k}b_{j}x_{j}=x^{T}b},

где xT=(x1,x2,…,xk){\displaystyle x^{T}=(x_{1},x_{2},…,x_{k})} — вектор регрессоров, b=(b1,b2,…,bk)T{\displaystyle b=(b_{1},b_{2},\ldots ,b_{k})^{T}} — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия[править | править код]

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

yt=a+bxt+εt{\displaystyle y_{t}=a+bx_{t}+\varepsilon _{t}}

Когда количество факторов (без учёта константы) больше 1-го, то говорят о множественной регрессии:

Y=b0+b1xi1+…+bjxij+…+bkxik+ei{\displaystyle Y=b_{0}+b_{1}x_{i1}+…+b_{j}x_{ij}+…+b_{k}x_{ik}+e_{i}}

Модель затрат организации (без указания случайной ошибки)[править | править код]

TC=FC+VC=FC+v⋅Q{\displaystyle TC=FC+VC=FC+v\cdot Q}

Простейшая модель потребительских расходов (Кейнс)[править | править код]

C=a+bY+ε{\displaystyle C=a+bY+\varepsilon }
  • C{\displaystyle C} — потребительские расходы
  • Y{\displaystyle Y} — располагаемый доход
  • b{\displaystyle b} — «предельная склонность к потреблению»
  • a{\displaystyle a} — автономное (не зависящее от дохода) потребление.

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда yt{\displaystyle y_{t}} — значение переменной y в t-м наблюдении, xtj{\displaystyle x_{tj}} — значение j-го фактора в t-м наблюдении. Соответственно, xtT=(xt1,xt2,…,xtk){\displaystyle x_{t}^{T}=(x_{t1},x_{t2},…,x_{tk})} — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

yt=b1xt1+b2xt2+…+bkxtk=∑j=1kbjxtj=xtTb+εt , E(εt)=0 , t=1..n{\displaystyle y_{t}=b_{1}x_{t1}+b_{2}x_{t2}+…+b_{k}x_{tk}=\sum _{j=1}^{k}b_{j}x_{tj}=x_{t}^{T}b+\varepsilon _{t}~,~E(\varepsilon _{t})=0~,~t=1..n}

Введём обозначения:

y=(y1y2…yn){\displaystyle y={\begin{pmatrix}y_{1}\\y_{2}\\…\\y_{n}\\\end{pmatrix}}} — вектор наблюдений зависимой переменой y
X=(x11x12…x1kx21x22…x2k…xn1xn2…xnk){\displaystyle X={\begin{pmatrix}x_{11}&x_{12}&…&x_{1k}\\x_{21}&x_{22}&…&x_{2k}\\…\\x_{n1}&x_{n2}&…&x_{nk}\\\end{pmatrix}}} — матрица факторов.
ε=(ε1ε2…εn){\displaystyle \varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\…\\\varepsilon _{n}\\\end{pmatrix}}} — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y=Xb+ε{\displaystyle y=Xb+\varepsilon }

В классической линейной регрессии предполагается, что наряду со стандартным условием E(εt)=0{\displaystyle E(\varepsilon _{t})=0} выполнены также следующие предположения (условия Гаусса-Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: V(εt)=σ2=const{\displaystyle V(\varepsilon _{t})=\sigma ^{2}=const}
  2. Отсутствие автокорреляции случайных ошибок: ∀i,j, i≠j  cov(εi,εj)=0{\displaystyle \forall i,j,~i\not =j~~cov(\varepsilon _{i},\varepsilon _{j})=0}

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: V(ε)=σ2In{\displaystyle V(\varepsilon )=\sigma ^{2}I_{n}}

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица X{\displaystyle X} имела полный ранг (k{\displaystyle k}), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

  • Е.З. Демиденко. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
  • Дж. Себер. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *