Метод регрессии: 5 видов регрессии и их свойства. При помощи построения регрессионных… | by Margarita M | NOP::Nuances of Programming

Автор: | 26.04.1971

Содержание

5 видов регрессии и их свойства. При помощи построения регрессионных… | by Margarita M | NOP::Nuances of Programming

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются эффективными, так как их легко понять и использовать. Однако, такая простота также имеет несколько недостатков, и во многих случаях лучше выбирать другую регрессионную модель. Существует множество видов регрессии, каждый из которых имеет свои достоинства и недостатки.

Мы познакомимся с 7 наиболее распространенными алгоритмами регрессии и опишем их свойства. Также мы узнаем, в каких ситуация и с какими видами данных лучше использовать тот или иной алгоритм. В конце мы расскажем о некоторых инструментах для построения регрессии и поможем лучше разобраться в регрессионных моделях в целом!

Линейная регрессия

Регрессия — это метод, используемый для моделирования и анализа отношений между переменными, а также для того, чтобы увидеть, как эти переменные вместе влияют на получение определенного результата. Линейная регрессия относится к такому виду регрессионной модели, который состоит из взаимосвязанных переменных. Начнем с простого. Парная (простая) линейная регрессия — это модель, позволяющая моделировать взаимосвязь между значениями одной входной независимой и одной выходной зависимой переменными с помощью линейной модели, например, прямой.

Более распространенной моделью является множественная линейная регрессия, которая предполагает установление линейной зависимости между множеством входных независимых и одной выходной зависимой переменных. Такая модель остается линейной по той причине, что выход является линейной комбинацией входных переменных. Мы можем построить модель множественной линейной регрессии следующим образом:

Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b

Где a_n — это коэффициенты, X_n — переменные и b — смещение. Как видим, данная функция не содержит нелинейных коэффициентов и, таким образом, подходит только для моделирования линейных сепарабельных данных. Все очень просто: мы взвешиваем значение каждой переменной X_n с помощью весового коэффициента a_n. Данные весовые коэффициенты a_n, а также смещение b вычисляются с применением стохастического градиентного спуска. Посмотрите на график ниже в качестве иллюстрации!

Иллюстрация поиска оптимальных параметром для линейной регрессии с помощью градиентного спуска

Несколько важных пунктов о линейной регрессии:

  • Она легко моделируется и является особенно полезной при создании не очень сложной зависимости, а также при небольшом количестве данных.
  • Обозначения интуитивно-понятны.
  • Чувствительна к выбросам.

Полиномиальная регрессия

Для создания такой модели, которая подойдет для нелинейно разделяемых данных, можно использовать полиномиальную регрессию. В данном методе проводится кривая линия, зависимая от точек плоскости. В полиномиальной регрессии степень некоторых независимых переменных превышает 1. Например, получится что-то подобное:

Y = a_1*X_1 + (a_2)²*X_2 + (a_3)⁴*X_3 ……. a_n*X_n + b

У некоторых переменных есть степень, у других — нет. Также можно выбрать определенную степень для каждой переменной, но для этого необходимы определенные знания о том, как входные данные связаны с выходными. Сравните линейную и полиномиальную регрессии ниже.

Линейная и полиномиальная регрессии с нелинейно разделенными данными

Несколько важных пунктов о полиномиальной регрессии:

  • Моделирует нелинейно разделенные данные (чего не может линейная регрессия). Она более гибкая и может моделировать сложные взаимосвязи.
  • Полный контроль над моделированием переменных объекта (выбор степени).
  • Необходимо внимательно создавать модель. Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
  • При неправильном выборе степени, данная модель может быть перенасыщена.

Гребневая (ридж) регрессия

В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Коллинеарность — это отношение независимых переменных, близкое к линейному. Наличие высокой коллинеарности можно определить несколькими путями:

  • Коэффициент регрессии не важен, несмотря на то, что, теоретически, переменная должна иметь высокую корреляцию с Y.
  • При добавлении или удалении переменной из матрицы X, коэффициент регрессии сильно изменяется.
  • Переменные матрицы X имеют высокие попарные корреляции (посмотрите корреляционную матрицу).

Сначала можно посмотреть на функцию оптимизации стандартной линейной регрессии для лучшего понимания того, как может помочь гребневая регрессия:

min || Xw — y ||²

Где X — это матрица переменных, w — веса, y — достоверные данные. Гребневая регрессия — это корректирующая мера для снижения коллинеарности среди предикторных переменных в регрессионной модели. Коллинеарность — это явление, в котором одна переменная во множественной регрессионной модели может быть предсказано линейно, исходя из остальных свойств со значительной степенью точности. Таким образом, из-за высокой корреляции переменных, конечная регрессионная модель сведена к минимальным пределам приближенного значения, то есть она обладает высокой дисперсией.

Гребневая регрессия добавляет небольшой фактор квадратичного смещения для уменьшения дисперсии:

min || Xw — y ||² + z|| w ||²

Такой фактор смещения выводит коэффициенты переменных из строгих ограничений, вводя в модель небольшое смещение, но при этом значительно снижая дисперсию.

Несколько важных пунктов о гребневой регрессии:

  • Допущения данной регрессии такие же, как и в методе наименьших квадратов, кроме того факта, что нормальное распределение в гребневой регрессии не предполагается.
  • Это уменьшает значение коэффициентов, оставляя их ненулевыми, что предполагает отсутствие отбора признаков.

Регрессия по методу «лассо»

В регрессии лассо, как и в гребневой, мы добавляем условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели. Но вместо квадратичного смещения, мы используем смещение абсолютного значения:

min || Xw — y ||² + z|| w ||

Существует несколько различий между гребневой регрессией и лассо, которые восстанавливают различия в свойствах регуляризаций L2 и L1:

  • Встроенный отбор признаков — считается полезным свойством, которое есть в норме L1, но отсутствует в норме L2. Отбор признаков является результатом нормы L1, которая производит разреженные коэффициенты. Например, предположим, что модель имеет 100 коэффициентов, но лишь 10 из них имеют коэффициенты отличные от нуля. Соответственно, «остальные 90 предикторов являются бесполезными в прогнозировании искомого значения». Норма L2 производит неразряженные коэффициенты и не может производить отбор признаков. Таким образом, можно сказать, что регрессия лассо производит «выбор параметров», так как не выбранные переменные будут иметь общий вес, равный 0.
  • Разряженность означает, что незначительное количество входных данных в матрице (или векторе) имеют значение, отличное от нуля. Норма L1 производит большое количество коэффициентов с нулевым значением или очень малые значения с некоторыми большими коэффициентами. Это связано с предыдущим пунктом, в котором указано, что лассо исполняет выбор свойств.
  • Вычислительная эффективность: норма L1 не имеет аналитического решения в отличие от нормы L2. Это позволяет эффективно вычислять решения нормы L2. Однако, решения нормы L1 не обладают свойствами разряженности, что позволяет использовать их с разряженными алгоритмами для более эффективных вычислений.

Регрессия «эластичная сеть»

Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии. Она использует как L1, так и L2 регуляризации, учитывая эффективность обоих методов.

min || Xw — y ||² + z_1|| w || + z_2|| w ||²

Практическим преимуществом использования регрессии лассо и гребневой регрессии является то, что это позволяет эластичной сети наследовать некоторую стабильность гребневой регрессии при вращении.

Несколько важных пунктов о регрессии эластичной сети:

  • Она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как метод лассо.
  • Нет ограничений по количеству выбранных переменных.

Вывод

Вот и все! 5 распространенных видов регрессии и их свойства. Все данные методы регуляризации регрессии (лассо, гребневая и эластичной сети) хорошо функционирует при высокой размерности и мультиколлинеарности среди переменных в наборе данных.

Перевод статьи George Seif: 5 Types of Regression and their properties

Регрессионный анализ—ArcGIS Insights | Документация

Регрессионный анализ ­ статистический аналитический метод, позволяющий вычислить предполагаемые отношения между зависимой переменной одной или несколькими независимыми переменными. Используя регрессионный анализ, вы можете моделировать отношения между выбранным переменными, а также прогнозируемыми значениями на основе модели.

Обзор регрессионного анализа

Регрессионный анализ использует выбранный метод оценки, зависимую переменную и одну или несколько независимых переменных для создания уравнения, которое оценивает значения зависимой переменной.

Модель регрессии включает выходные данные, например R2 и p-значения, по которым можно понять, насколько хорошо модель оценивает зависимую переменную.

Диаграммы, например матрица точечной диаграммы, гистограмма и точечная диаграмма, также используются в регрессионном анализе для анализа отношений и проверки допущений.

Регрессионный анализ используется для решения следующих типов проблем:

  • Выявить, какая независимая переменная связана с зависимой.
  • Понять отношения между зависимой и независимыми переменными.
  • Предсказать неизвестные значения зависимой переменной.

Примеры

Аналитик в рамках исследования для небольшой розничной сети изучает эффективность работы различных магазинов. Он хочет выяснить, почему некоторые магазины показывают очень небольшой объем продаж. Аналитик строит модель регрессии с независимыми переменными, такими как средний возраст и средний доход жителей, проживающих вокруг магазинов, а так же расстояние до торговых центров и остановок общественного транспорта, чтобы выявить, какая именно переменная наиболее влияет на продажи.

Аналитик департамента образования исследует эффективность новой программы питания в школе. Аналитик строит модель регрессии для показателей успеваемости, используя такие независимые переменные, как размер класса, доход семьи, размер подушевого финансирования учащихся и долю учащихся, питающихся в школе. Уравнение модели используется для выявления относительного вклада каждой переменной в показатели успеваемости учебного заведения.

Аналитик неправительственной организации изучает эффект глобальных выбросов парниковых газов. Аналитик строит модель регрессии для выбросов в последнее время, зафиксированных в каждой стране, используя независимые переменные, такие как валовой внутренний продукт( ВВП), численность населения, производство электроэнергии с использованием добываемого углеводородного топлива и использование транспортных средств. Эту модель можно использовать использована для прогнозирования будущих выбросов парниковых газов на основе предполагаемых значений значений ВВП и численности населения.

Наименьшие квадраты

Регрессионный анализ в ArcGIS Insights моделируется на основе Метода наименьших квадратов (МНК).

МНК – форма множественной линейной регрессии, допускающей, что отношения между зависимыми и независимыми переменными должны моделироваться подгонкой линейного уравнения к данным наблюдений.

МНК использует следующее уравнение:

yi01x12x2+...+βnxn

, где:

  • yi=наблюдаемое=наблюдаемое значение независимой переменной в точке i
  • β0=y-интерсепт (отрезок на координатной оси, постоянное значение)
  • βn=коэффициент регрессии или уклона независимой переменной N в точке i
  • xn=значение переменной N в точке i
  • ε=ошибка уравнения регрессии

Допущения (Предположения)

Каждый метод регрессии имеет несколько допущений, которые должны быть выполнены для того, чтобы уравнение считалось надежным. Допущения МНК должны быть проверены при создании модели регрессии.

Следующие допущения должны быть проверены и удовлетворены при использовании метода МНК:

Модель должна быть линейной.

Регрессия МНК используется только при построении линейной модели. Линейную зависимость между зависимой и независимыми переменными можно проверить используя точечную диаграмму (рассеивания). Матрица точечной диаграммы может проверить все переменные, при условии, что всего используется не более 5 переменных.

Данные должны быть распределены произвольно.

Данные, используемые в регрессионном анализе, должны быть произвольно распределены, то есть выборки данных не должны зависеть от какого-либо внешнего фактора. Произвольное распределение можно проверить, используя невязки в модели регрессии. Невязки, рассчитываемые как результат модели регрессии, не должны коррелировать при нанесении их на точечную диаграмму или матрицу точечной диаграммы вместе с независимыми переменными.

Независимые переменные не должны быть коллинеарны.

Коллинеарность — это линейная связь между независимыми переменными, которая создает избыточность в модели. В ряде случаев модель создается с коллинеарностью. Тем не менее, если одна из коллинеарных переменных зависит от другой, возможно, стоит удалить ее из модели. Оценить коллинеарность можно с помощью точечной диаграммы или матрицы точечной диаграммы независимых переменных.

Независимые переменные должны иметь незначительную погрешность измерения.

Точность модели регрессии соответствует точности входных данных. Если независимые переменные имеют большой разброс ошибок, модель нельзя считать точной. При выполнении регрессионного анализа очень важно использовать наборы данных только из известных и доверенных источников, чтобы быть уверенным в незначительности ошибок.

Предполагаемая сумма невязок должна быть равна нулю.

Невязки представляют собой разность между ожидаемыми и наблюдаемыми значениями в регрессионном анализе. Наблюдаемые значения выше кривой регрессии имеют положительное значение невязки, а значения ниже кривой регрессии – отрицательные. Кривая регрессии должны проходить через центр точек данных; соответственно сумма невязок должны стремиться к нулю. Сумму значений поля можно вычислить в суммарной таблице.

Невязки должны иметь равномерную вариабельность.

Величина вариабельности должна быть одинаковой для всех невязок. Это допущение проверяется с использованием точечной диаграммы невязок (ось y) и оцениваемых значений (ось x). Результирующая точечная диаграмма отображается как горизонтальная полоса с произвольно разбросанными точками по всей площади.

Распределение невязок должно соответствовать нормальному.

Нормальное распределение – кривая в форме колокола – является естественным распределением, где высокая частота явления наблюдается рядом со средним значением, и по мере увеличения расстояния от среднего частота снижается. В статистическом анализе нормальное распределение часто используется как нулевая гипотеза. Если распределение невязок соответствует нормальному, линия наилучшего соответствия проходит по центру наблюдаемых точек данных, а не отклоняется, приближаясь к одним, и отклоняясь от других. Это допущение можно проверить, построив гистограмму невязок. Кривая нормального распределения может не поместиться в карточку и сдвиги и эксцессы переносятся на обратную сторону карточки гистограммы.

Смежные невязки не должны обнаруживать автокорреляцию.

Это допущение основано на хронологии данных. Если данные соответствуют хронологии, каждая точка данных должна быть независима от предыдущей или последующей точки данных. Поэтому при выполнении регрессионного анализа важно убедиться, что хронологический порядок данных соответствует нормальному ходу времени. Это допущение вычисляется с использованием теста Дарбина-Уотсона.

Тест Дарбина-Уотсона измеряет автокорреляцию невязок в модели регрессии. Критерий Дурбина-Ватсона использует шкалу от 0 до 4, где значения от 0 до 2 указывают на положительную автокорреляцию, 2 – отсутствие автокорреляции, а от 2 до 4 отрицательную автокорреляцию. То есть, чтобы соответствовать допущению об отсутствии автокорреляции невязок, необходимо получить значение, приближающееся к 2. В целом, значения между 1.5 и 2.5 считаются допустимыми, а меньше 1.5 или больше 2.5 указывают на то, что модель не соответствует утверждению об отсутствии автокорреляции.

Пригодность модели

Точность уравнения регрессии – основа регрессионного анализа. Все модели будут иметь некую ошибку, но понимание этой статистики поможет вам определить, можно ли использовать эту модель для вашего анализа, или необходимо выполнить дополнительные преобразования.

Существуют два метода проверки корректности модели регрессии: исследовательский анализ и подтверждающий анализ.

Исследовательский анализ

Исследовательский анализ – технология анализа данных с использованием разнообразных статистических и визуальных методов. В рамках исследовательского анализа вы проверяете допущения регрессии МНК и сравниваете эффективность различных независимых переменных. Исследовательский анализ позволяет вам сравнить эффективность и точность разных моделей, но не может определить, должны ли вы использовать или отклонить ту или иную модель. Исследовательский анализ необходимо проводить перед анализом подтверждения для каждой модели регрессии, возможно, несколько раз, для сравнения разных моделей.

Как часть исследовательского анализа могут быть использованы следующие диаграммы и статистические показатели:

  • Точечная диаграмма (рассеяния) и матрица точечной диаграммы
  • Гистограмма и анализ нормального распределения
  • Уравнение регрессии и прогнозирование новых наблюдений
  • Коэффициент детерминации, R2 и скорректированный R2
  • Стандартная ошибка невязки
  • Точечная диаграмма

Исследовательский анализ начинается, когда вы выбираете независимые переменные, и до построения модели регрессии. Так как МНК – метод линейной регрессии, основное допущение – модель должна быть линейной. Точечная диаграмма (рассеяния) и матрица точечной диаграммы могут быть использованы для анализа линейной зависимости между зависимой переменной и независимыми переменными. Матрица точечной диаграммы может отобразить до 4х независимых переменных с зависимой переменной, что позволяет сразу провести сравнение между всеми переменными. Простая диаграмма рассеяния может отобразить только две переменные: одну зависимую и одну независимую. Просмотр диаграммы рассеяния с зависимой переменной и одной независимой переменной позволяет сделать более точное допущение об отношении между переменными. Линейность можно проверить перед созданием модели регрессии, чтобы определить, какие именно независимые переменные следует использовать для создания пригодной модели.

Несколько выходных статистических показателей также доступны после создания модели регрессии, к ним относятся: уравнение регрессии, значение R2 и критерий Дурбина-Ватсона. После создания модели регрессии вы должны использовать выходные показатели, а также диаграммы и таблицы для проверки остальных допущений регрессии МНК. Если ваша модель удовлетворяет допущениям, вы можете продолжить исследовательский анализ.

Уравнение регрессии дает возможность оценить влияние каждой независимой переменной на прогнозируемые значения, включая коэффициент регрессии для каждой независимой переменной. Можно сравнить величины уклона для определения влияния каждой независимой переменной на зависимую переменную; Чем дальше от нуля значение уклона (неважно, в положительную, или отрицательную сторону) – тем больше влияние. Уравнение регрессии также может быть использовано для прогнозирования значений зависимой переменной через вод значений каждой независимой переменной.

Коэффициент детерминации, обозначаемый как R2, измеряет, насколько хорошо уравнение регрессии моделирует фактические точки данных. Значение R2 – число в диапазоне от 0 до 1, причем, чем ближе значение к 1, тем более точная модель. Если R2 равен 1, это указывает на идеальную модель, что крайне маловероятно в реальных ситуациях, учитывая сложность взаимодействий между различными факторами и неизвестными переменными. Поэтому следует стремиться к созданию регрессионной модели с максимально возможным значением R2 , понимая, что значение не может быть равно 1.

При выполнении регрессионного анализа существует риск создания модели регрессии, имеющей допустимое значение R2, путем добавления независимых переменных, случайным образом показывающих хорошее соответствие. Значение Скорректированный R2, которое также должно находиться в диапазоне между 0 и 1, учитывает дополнительные независимые переменные, уменьшая роль случайности в вычислении. Скорректированный R2 нужно использовать в модели с большим количеством независимых переменных или при сравнении моделей с различным числом независимых переменных.

Стандартная ошибка невязки измеряет точность, с которой регрессионная модель может предсказывать значения с новыми данными. Меньшие значения указывают на более точную модель, соответственно при сравнении нескольких моделей, та, где это значение самое меньшее из всех – модель, в которой минимизирована стандартная ошибка невязки.

Точечная диаграмма может быть использована для анализа независимых переменных, с целью выявления кластеризации или выбросов, которые могут влиять на точность модели.

Анализ подтверждения

Анализ подтверждения — процесс оценки модели в сравнении с нулевой гипотезой. В регрессионном анализа нулевая гипотеза утверждает, что отношения между зависимой и независимыми переменными отсутствуют. Для модели с отсутствием отношений величина уклона равна 0. Если элементы анализа подтверждения статистически значимы — вы можете отклонить нулевую гипотезу ((другими словами, статистически подтверждается наличие отношений между зависимой и независимыми переменными).

Для определения значимости, как компонента анализа, используются следующие статистические показатели:

  • F-статистика, и связанное с ней p-значение
  • T-статистика, и связанное с ней p-значение
  • Доверительные интервалы

F-статистика — глобальный статистический показатель, возвращаемый F-критерием, который показывает возможности прогнозирования модели через расчет коэффициентов регрессии в модели, которые значительно отличаются от 0. F-критерий анализирует комбинированное влияние независимых переменных, а не оценивает каждую в отдельности. С F-статистикой связано соответствующее p-значение, которое является мерой вероятности того, что детерминированные отношения между переменными являются случайными Так как p-значения базируются на вероятности, значения располагаются в диапазоне от 0.0 до 1.0. Небольшое p-значение, обычно 0.05 или меньше, свидетельствует о том, что в модели реально есть отношения между переменными (то есть, выявленная закономерность не является случайной) что дает нам право отвергнуть нулевую гипотезу. В этом случае, вероятность того, что отношения в модели случайны, равна 0.05, или 1 к 20. Или, вероятность того, что отношения реальны, равна 0.95, или 19 к 20.

Показатель t-статистика — это локальный статистический показатель, возвращаемый t-критерием, который показывает возможности прогнозирования для каждой независимой переменной отдельно. Так же, как и F-критерий, t-критерий анализирует коэффициенты регрессии в модели, которые значительно отличаются от 0. Так как t-критерий применяется к каждой независимой переменной, модель вернет значение t-статистики для каждой независимой переменной, а не одно значение для всей модели. Каждое значение t-статистики имеет связанное с ним p-значение, которое указывает на значимость независимой переменной. Так же, как и для F-критерия, p-значение для каждого t-критерия должно быть 0.05 или менее, чтобы мы могли отвергнуть нулевую гипотезу. Если p-значение для независимой переменной больше 0.05, эту переменную не стоит включать в модель, и необходимо строить новую модель, даже если глобальное значение вероятности для исходной модели указывает на статистическую значимость.

Доверительные интервалы визуализируют коэффициенты регрессии для каждой независимой переменной и могут быть 90, 95 и 99 процентов. Поэтому доверительные интервалы можно использовать наряду с p-значениями t-критерия для оценки значимости нулевой гипотезы для каждой независимой переменной. Коэффициенты регрессии на должны быть равны 0, только в этом случае вы можете отклонить нулевую гипотезу и продолжить использовать модель. Поэтому, для каждой независимой переменной, коэффициент регрессии, и связанный с ним доверительный интервал не может перекрываться с 0. Если доверительные интервалы в 99 или 95 процентов для данной независимой переменой перекрываются с 0, эта независимая переменная не дает возможности отклонить нулевую гипотезу. Включение этой переменной в модель может негативно повлиять на общую значимость вашей модели. Если только 90-процентный доверительный интервал перекрывается с 0, эта переменная может быть включена в модель, общая статистическая значимость которой вас удовлетворяет. В идеале, доверительные интервалы для всех независимых переменных должны быть как можно дальше от 0.

Другие выходные данные

Остальные выходные данные, такие как прогнозируемые значения и невязки также важны для допущений регрессии МНК. В этом разделе вы можете узнать подробнее, как эти значения вычисляются.

Ожидаемые значения

Ожидаемые значения вычисляются на основе уравнения регрессии и значений каждой независимой переменной. В идеале, ожидаемые значения должны совпадать с наблюдаемыми (реальными значениями зависимой переменной).

Ожидаемые значения, вместе с наблюдаемым значениями, используются для вычисления невязок.

Невязки

Невязки в регрессионном анализе – это различия между наблюдаемыми значениями в наборе данных и ожидаемыми значениями, вычисленными с помощью уравнения регрессии.

Невязки A и B для отношений выше вычисляются следующим образом:

невязкиA = наблюдаемыеA - ожидаемыеA невязкиA = 595 - 487.62 невязкиA = 107.38
невязкиB = наблюдаемыеB - ожидаемыеB невязкиB = 392 - 527.27 невязкиB = -135.27

Невязки используются для вычисления ошибки уравнения регрессии, а также для проверки некоторых допущений.

Методы регрессии — CoderLessons.com

Регрессия — это статистический метод, который помогает квалифицировать отношения между взаимосвязанными экономическими переменными. Первый шаг включает в себя оценку коэффициента независимой переменной, а затем измерение достоверности оцененного коэффициента. Это требует формулирования гипотезы, и на основе гипотезы мы можем создать функцию.

Если менеджер хочет определить взаимосвязь между рекламными расходами фирмы и доходами от продаж, он подвергнется проверке гипотезы. Предполагая, что более высокие расходы на рекламу приводят к увеличению продаж для фирмы. Менеджер собирает данные о расходах на рекламу и о выручке от продаж за определенный период времени. Эта гипотеза может быть переведена в математическую функцию, где она приводит к —

Y = A + Bx

Где Y — продажи, x — расходы на рекламу, A и B — постоянные.

После перевода гипотезы в функцию основание для этого должно найти связь между зависимой и независимой переменными. Значение зависимой переменной имеет наибольшее значение для исследователей и зависит от значения других переменных. Независимая переменная используется для объяснения изменения зависимой переменной. Это может быть классифицировано в два типа —

  • Простая регрессия — одна независимая переменная

  • Множественная регрессия — несколько независимых переменных

Простая регрессия — одна независимая переменная

Множественная регрессия — несколько независимых переменных

Простая регрессия

Ниже приведены шаги для построения регрессионного анализа —

  • Укажите модель регрессии
  • Получить данные о переменных
  • Оценить количественные отношения
  • Проверьте статистическую значимость результатов
  • Использование результатов в принятии решений

Формула для простой регрессии —

Y = a + bX + u

Y = зависимая переменная

X = независимая переменная

а = перехват

б = уклон

и = случайный фактор

Данные поперечного сечения предоставляют информацию о группе объектов в данный момент времени, тогда как данные временных рядов предоставляют информацию об одном объекте с течением времени. Когда мы оцениваем уравнение регрессии, оно включает в себя процесс определения наилучшей линейной зависимости между зависимой и независимой переменными.

Метод обыкновенных наименьших квадратов (OLS)

Обычный метод наименьших квадратов предназначен для подгонки линии через разброс точек таким образом, чтобы сумма квадратов отклонений точек от линии сводилась к минимуму. Это статистический метод. Обычно программные пакеты выполняют оценку OLS.

Y = a + bX

Коэффициент определения (R

2 )

Коэффициент детерминации — это мера, которая показывает процент изменения зависимой переменной из-за изменений в независимых переменных. R 2 является показателем качества модели соответствия. Ниже приведены методы —

Общая сумма квадратов (TSS)

Сумма квадратов отклонений значений выборки Y от среднего значения Y.

TSS = SUM (Y i — Y) 2

Y i = зависимые переменные

Y = среднее значение зависимых переменных

я = количество наблюдений

Регрессия Сумма квадратов (RSS)

Сумма квадратов отклонений расчетных значений Y от среднего значения Y.

RSS = СУММА (Ỷ i — uY) 2

i = оценочное значение Y

Y = среднее значение зависимых переменных

я = количество вариантов

Ошибка суммы квадратов (ESS)

Сумма квадратов отклонений выборочных значений Y от расчетных значений Y.

ESS = СУММА (Y i — Ỷ i

) 2

i = оценочное значение Y

Y i = зависимые переменные

я = количество наблюдений

R2 =

RSS / TSS

= 1 —

ESS / TSS

R 2 измеряет долю общего отклонения Y от его среднего значения, что объясняется регрессионной моделью. Чем ближе R 2 к единице, тем больше объясняющая сила уравнения регрессии. Значение R 2, близкое к 0, указывает на то, что уравнение регрессии будет иметь очень мало объяснительной силы.

Для оценки коэффициентов регрессии используется выборка из совокупности, а не всей совокупности. Важно делать предположения о населении на основе выборки и делать выводы о том, насколько хороши эти предположения.

Оценка коэффициентов регрессии

Каждая выборка из населения генерирует свой собственный перехват. Для расчета статистической разницы можно использовать следующие методы:

Двуххвостый тест —

Нулевая гипотеза: H 0 : b = 0

Альтернативная гипотеза: H a : b ≠ 0

Один хвостатый тест —

Нулевая гипотеза: H 0 : b> 0 (или b <0)

Альтернативная гипотеза: H a : b <0 (или b> 0)

Статистический тест —

т =

(b — E (b)) / SE b

б = расчетный коэффициент

E (b) = b = 0 (нулевая гипотеза)

SE

b = стандартная ошибка коэффициента

,

Значение t зависит от степени свободы, одного или двух неудачных испытаний и уровня значимости. Для определения критического значения t можно использовать t-таблицу. Затем идет сравнение t-значения с критическим значением. Нужно отклонить нулевую гипотезу, если абсолютное значение статистического теста больше или равно критическому t-значению. Не отвергайте нулевую гипотезу, если абсолютное значение статистического теста меньше критического t-значения.

Множественный регрессионный анализ

В отличие от простой регрессии в множественном регрессионном анализе, коэффициенты указывают на изменение зависимых переменных, предполагая, что значения других переменных постоянны.

Тест статистической значимости называется F-тестом . F-тест полезен, поскольку он измеряет статистическую значимость всего уравнения регрессии, а не только для отдельного человека. Здесь В нулевой гипотезе нет никакой связи между зависимой переменной и независимыми переменными совокупности.

Формула — H 0 : b1 = b2 = b3 =…. = bk = 0

Не существует никакой связи между зависимой переменной и k независимыми переменными для совокупности.

F-тест статический —

F= frac left( fracR2K right) frac(1−R2)(nk−1)

Критическое значение F зависит от числителя и знаменателя, степени свободы и уровня значимости. F-таблица может быть использована для определения критического значения F. По сравнению с F – значением с критическим значением (F *) —

Если F> F *, нам нужно отвергнуть нулевую гипотезу.

Если F <F *, не отклоняйте нулевую гипотезу, так как нет существенной связи между зависимой переменной и всеми независимыми переменными.

Методы регрессионного анализа в Data Science / Блог компании OTUS / Хабр

Накануне запуска курса «Математика для Data Science. Продвинутый курс» мы провели открытый вебинар на тему «Методы регрессионного анализа в Data Science». На нём познакомились с понятием линейных регрессий, изучили, где и как их можно применять на практике, а также узнали, какие темы и разделы математического анализа, линейной алгебры и теории вероятностей используются в этой области. Преподаватель — Петр Лукьянченко, преподаватель НИУ ВШЭ, руководитель технологических проектов.



Если мы говорим о математике в контексте Data Science, мы можем выделить три наиболее часто решаемые задачи (хотя задач, разумеется, больше):

Поговорим об этих задачах подробнее:

  1. Задача регрессионного анализа или выявления зависимостей (когда у нас есть некий набор наблюдений). На графике выше вы можете увидеть, что есть некая переменная х и некая переменная у, и мы наблюдаем значения у при конкретном х. Мы знаем эти точки и знаем их координаты, а также знаем, что х как-то влияет на y, то есть эти две переменные зависимы между собой. Естественно, мы хотим вычислить уравнение их зависимости — для этого используется
    модель
    классической парной линейной регрессии, когда предполагается, что их зависимость может быть описана некой прямой линией. Соответственно, дальше коэффициенты прямой линии подбираются так, чтобы минимизировать ошибку описания данных. И вот как раз от того, какая ошибка (метрика качества) будет выбрана, зависит фактический результат построения линейной регрессии.
  2. Другая задача из анализа данных — рекомендательные системы. Это когда мы говорим, что есть, к примеру, онлайн-магазины, в них есть некий набор товаров, а человек совершает покупки. На основании этой информации можно в векторном пространстве представить описание этого человека, и, построив это векторное пространство, построить в дальнейшем математическую зависимость того, с какой вероятностью этот человек купит тот или иной товар, зная его предыдущие покупки. Соответственно, речь идёт о классификации, когда мы классифицируем потенциальных покупателей по принципам: «купит-не купит», «интересно-неинтересно» и т. д. Здесь есть различные подходы: user-based и item-based.
  3. Третья область — компьютерное зрение. В ходе этой задачи мы пытаемся определить, где располагается интересный нам объект. Это фактически является решением задачи минимизации ошибки путём выбора конкретных пикселей, которые формируют картинку объекта.

Во всех трёх задачах присутствует и оптимизация, и минимизация ошибки, и наличие той или иной модели, которая описывает зависимость переменных. При этом внутри каждой лежит представление данных, которые разложены на векторное описание. Мы же в нашей статье уделим особое внимание разделу, который затрагивает именно регрессионные модели.

Мы уже упомянули, что есть некий набор пар данных: Х и Y. Мы знаем, какие значения принимает Y относительно X. Если Х — это время, то тогда у нас получается модель временного ряда, в котором Y — это, допустим, цена нефти и при этом курс рубля к доллару, а Х — это некоторый период времени с 2014 по 2018:

Если построить графически, то видно, что эти два временных ряда между собой зависимы. Определив понятие корреляции, можно вычислить степень их зависимости, а дальше, если вы знаете, что какие-то величины идеально коррелируются (корреляция равна 1 или -1), вы сможете это использовать либо при задачах прогнозирования, либо при задачах описания.

Рассмотрим следующую иллюстрацию:

Самое сложное при формировании регрессионной модели — изначально заложить в её память какую-то конкретную функцию. Например, для рисунка А — это Y = kX + b, для Б — это Y = -kX + b, на рисунке В «игрек» равен какому-то числу, в основе графика на рисунке Г, скорее всего, лежит корень из «икс», в основе Д, возможно, парабола, а в основе Е — гипербола.

Получается, мы выбираем какую-то модель зависимости данных, а виды зависимости между случайными величинами бывают разные. Всё не так уж и очевидно, ведь даже на этих простых рисунках мы видим различные зависимости. Выбрав конкретную зависимость, мы сможем использовать регрессионные методы для калибровки модели.

От того, какую модель вы выберете, будет зависеть качество ваших прогнозов. Если остановиться на линейных регрессионных моделях, то мы предполагаем, что есть некий набор реальных значений:

На рисунке показаны 4 наблюдаемых значения Х1, Х2, Х2, Х4. Для каждого из «иксов» известно значение Y (в нашем случае, это точки: P1, P2, P3, P4). Это точки, которые мы реально наблюдаем на данных. Таким образом, мы получили некий датасет. И по каким-то соображениям мы решили, что линейная регрессия лучше всего описывает зависимость между «иксом» и «игреком». Дальше весь вопрос заключается в том, как построить уравнение прямой линии Y = b1 + b2X, где b2 — коэффициент наклона, b1 — коэффициент пересечения. Весь вопрос заключается в том, какие b2 и b1 лучше всего установить, чтобы эта прямая линия как можно точнее описывала зависимость между этими переменными.

Точки R1, R2, R3, R4 — это значения, которые выдаёт наша модель при значениях X. Что получается? Точки P — точки, которые мы реально наблюдаем (реально собрали), а точки R — это точки, которые мы наблюдаем в нашей модели (те, что она выдаёт). Дальше следует до безумия простая человеческая логика: модель будет считаться качественной тогда и только тогда, когда точки R максимально близки к точкам P.

Если мы построим расстояние между этими точками для одинаковых «иксов» (P1 – R1, P2 – R2 и т. д.), то мы получим то, что называется ошибками линейной регрессии. Мы получим отклонения в линейной регрессии, и эти отклонения называются U1, U2, U3…Un. А ошибки эти могут быть как в плюс, так и в минус (мы могли переоценить или недооценить). Чтобы эти отклонения сравнить, их нужно проанализировать. Здесь применяют очень большой и красивый способ — возведение в квадрат (возведение в квадрат «убивает» знак). А сумму квадратов всех отклонений в математической статистике называют RSS (Residual Sum of Squares). Минимизировав RSS по b1 и минимизировав RSS по b2, мы получаем оптимальные коэффициенты, которые фактически выводятся методом наименьших квадратов.

После того, как мы построили регрессию, определили оптимальные коэффициенты b1 и b2, и у нас есть уравнение регрессии, проблемы на этом не заканчиваются, а задача продолжает развиваться. Дело в том, что если на одном графике пометить саму регрессию, все значения, которые у нас есть, а также средние значения «игреков», то суммы квадратов ошибок можно будет доуточнить.

В то же время полезным считается отображать ошибки предсказания регрессии относительно переменной X. Смотрим рисунок ниже:

Мы получили какую-то регрессию и нарисовали настоящие данные, которые есть. Мы получили расстояние от каждого настоящего значения до регрессии. И нарисовали её относительно нулевого значения для соответствующих значений X. И на рисунке выше мы наблюдаем на самом деле очень плохую картину: ошибки зависят от X. Явно выражена какая-то корреляционная зависимость: чем дальше по «иксу» мы движемся, тем большее значение ошибок. Это очень плохо. Наличие корреляции в этом случае свидетельствует, что мы ошибочно взяли регрессионную модель, и был какой-то параметр, который мы «не додумали» или просто упустили из виду. Ведь если внутрь модели помещены все переменные, ошибки должны быть полностью случайными и не должны зависеть от того, чему равняются ваши факторы. Ошибки должны быть с одинаковым вероятностным распределением, иначе ваши предсказания будут ошибочными. Если вы нарисовали на плоскости ошибки вашей модели и встретили расходящийся треугольник, лучше начать всё с нуля и полностью пересчитать модель.

По анализу ошибок можно даже сразу понять, где просчитались, какой тип ошибки сделали. И вот здесь нельзя не упомянуть теорему Гаусса-Маркова:

Теорема определяет условия, при которых оценки, которые мы получили методом наименьших квадратов, будут являться наилучшими, состоятельными, эффективными в классе линейных несмещённых оценок.

Вывод можно сделать следующий: сейчас мы понимаем, что область построения регрессионной модели — это, в каком-то смысле, кульминация с точки зрения математики, потому что в ней сливаются сразу все возможные разделы, которые могут быть полезны в анализе данных, например:

  • линейная алгебра со способами представления данных;
  • математический анализ с теорией оптимизации и средствами анализа функций;
  • теория вероятности со средствами описания случайных событий и величин и моделирования зависимости между переменными.



Коллеги, предлагаю всё-таки не ограничиваться чтением и посмотреть вебинар целиком. В статью не вошли моменты, связанные с линейным программированием, оптимизацией в регрессионных моделях и другими деталями, которые могут быть вам полезны.

Общие регрессионные модели



Общие регрессионные модели


Общие регрессионные модели (GRM)


Модуль Общие регрессионные модели (GRM) включает в себя методы анализа общих линейных моделей и позволяет строить модели планов эффектов с множественными степенями свободы для категориальных предикторов и планы анализа эффектов с одной степенью свободы непрерывных предикторов. В GRM используется пошаговая техника и методы наилучшего подмножества Дисперсионного анализа (ANOVA), регрессии и анализа ковариаций (ANCOVA). Для построения и оценки включенных в модель итоговых эффектов в GRM используется метод наименьших квадратов общих линейных моделей.


Основные идеи: Использование простых моделей

Хорошая теория является результатом процесса сложных и одновременно красивых исследований. Мы начинаем наши исследования с модели, которая включает все возможные, поддающиеся изучению факторов влияющих на цель нашего исследования. Затем, проводим тестирования элементов начальной модели, с целью выявления менее сложных моделей, адекватно описывающих цель исследований. В итоге из упрощенных моделей выделяем наипростейшую модель, которая по принципу «простоты» будет являться «наилучшей» интерпретацией нашей цели исследования.

Выбирая более простую модель, мы руководствуемся не только философскими побуждениями, а скорее практическими. Простые модели намного легче тестировать во время кросс-проверки и повторного использования. С другой стороны, простые модели намного легче использовать в будущем с точки зрения стоимости получения отклика и значений предикторов. Так же не стоит преуменьшать философские основы простых моделей. Простые модели намного легче для понимания и зачастую намного «красивее» более сложных.

Процесс исследования, описанный выше, сосредоточен в технике построения модели пошаговой регрессии или регрессии наилучшего подмножества. Использование данной техники начинается с момента задания плана «общей модели.» Затем производится тестирование упрощенных подмоделей, с целью определить адекватность описания. В итоге принимаем одну из простых моделей в качестве «наилучшей.»


Построение модели в GRM

В отличие от модели множественной регрессии, в которой анализируются планы с непрерывными предикторами, планы общих линейных моделей используются при анализе планов Дисперсионного анализа с категориальными предикторами, планов Ковариационного анализа с категориальными и непрерывными предикторами и регрессионных планов с непрерывными предикторами. Эффекты категоризованных предикторов представляются в виде матрицы плана X используя либо перепараметризованную модель, либо сигма-ограниченную модель.

Для построения модели используется сигма-ограниченная параметризация. На основе точного определения, общие линейные модели используются для анализа планов эффектов категориальных предикторов, которые закодированы каким либо методом. В большинстве случаев использования общих линейных моделей, метод параметризации категориальных предикторов, будь то сигма-ограниченный метод или перепараметризованный метод, выбирается произвольным образом. При построение модели, выбор перепараметризованной модели в качестве параметризации является не самым удачным решением; эффекты низких порядков категориальных предикторов вместе с эффектами высокого порядка, содержащих взаимодействия, будут избыточными, что может привести к резкой потери качества оценивания.

При использовании сигма-ограниченной параметризации категориальных предикторов, данная проблема не возникает, поэтому данный вид параметризации используется в модуле GRM.

Планы, которые нельзя представить при помощи сигма-ограниченной параметризации. Сигма-ограниченный тип параметризации используется в большинстве планов, но не во всех. Например, планы, которые нельзя представить при помощи сигма-ограниченной параметризации, основываются на планах гнездовых эффектов, такие как: гнездовой ДА, неоднородные коэффициенты наклона и смешанные модели со случайными эффектами. Все остальные типы планов Дисперсионного анализа, Ковариационного анализа или регрессионного анализа можно представить при помощи сигма-ограниченной параметризации и проанализировать в модуле GRM.

Построение модели планов с несколькими зависимыми переменными. Построение модели при помощи пошаговой и наилучшего подмножества техники является наиболее разработанным методом построения регрессионных планов для одной зависимой переменной (например, смотри Cooley и Lohnes, 1971; Darlington, 1990; Hocking Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). При помощи сигма-ограниченного кодирования и методов общих линейных моделей, данные способы построения моделей можно применять ко всем моделям Дисперсионного анализа с одним категориальным предиктором, моделям Ковариационного анализа и регрессионных планов для непрерывных переменных. Построение планов с несколькими зависимыми переменными требует рассуждений и предположений, которые, как правило, не входят в общие линейные модели. Методы построения и анализа планов с несколькими зависимыми переменными вы найдете в модуле Моделирование структурными уравнениями.


Виды анализа

При помощи сигма-ограниченного кодирования матрицы плана X можно представить большинство различных видов планов. Все эти планы можно проанализировать при помощи общих линейных моделей. Ниже приведены разделы, в которых описываются данные планы и их различия. Несколько основных типов различий следуют из того, что почти все планы можно представить в виде «гибридов» или комбинаций различных типов основных планов.

Межгрупповые планы

Вводный обзор

Уровни или значения предикторных переменных анализа описывают различия между анализируемыми n объектами или n допустимыми наблюдениями одного объекта. Таким образом, когда мы говорим об анализе межгруппового плана, мы подразумеваем природу, число и порядок предикторных переменных.

Планы, содержащие только категориальные предикторы, называются планами Дисперсионного анализа (ANOVA/MANOVA планы), межгрупповые планы, содержащие только непрерывные предикторы, называются регрессионными планами и межгрупповые планы, содержащие оба типа предикторов, называются ковариационными планами (ANCOVA планы).

Межгрупповые планы, содержащие только один предиктор, называются простыми (например, простые регрессионные планы), планы, содержащие несколько предикторов — составными или множественными планами (например, планы множественной регрессии).

Относительно порядка предикторов: некоторые межгрупповые планы содержат только «главные эффекты» или предикторы первого порядка, что эквивалентно тому что, значения различных предикторов независимы и входят в модель в первой степени. Некоторые межгрупповые планы могут содержать высокого порядка элементы предикторов, путем возведения значений исходных предикторов в степень больше 1 (например, планы полиномиальной регрессии) или включать произведения различных предикторов (т.е., элементы взаимодействия). Стандартным типом планов для Дисперсионного анализа является полный факторный план, в который входят все возможные комбинации уровней каждого категориального предиктора. Планы, не содержащие некоторых комбинаций, называются дробными планами.

Данное описание имеющихся различий в природе, числе и порядке предикторов характеризует все основные типы межгрупповых планов. Ниже приведены более подробные описания основных типов планов.

Простая регрессия

В планах простой регрессии используется только один непрерывный предиктор. Предположим, что у нас есть три наблюдения непрерывного предиктора P: 7, 4, и 9, и есть план анализа для эффекта первого порядка P. Тогда матрица X будет выглядеть следующим образом:

уравнения регрессии с использованием P для X1 будет выглядеть следующим образом:

Y = b0 + b1P

Если план простой регрессии использует эффекты более высокого порядка P, например, квадратичный эффект то, значения столбца X1 матрицы плана будут возведены во 2ую степень:

уравнения регрессии с использованием P2 для X1 будет выглядеть следующим образом:

Y = b0 + b1P2

В регрессионных планах, значения непрерывного предиктора возводятся в необходимую степень и затем используются в качестве X переменных. Как вы видите, при описании регрессионного плана, намного проще использовать регрессионное уравнение в отличие от матрицы плана X.

Множественная регрессия

Планы Множественной регрессии используются для анализа непрерывных предикторов, так же как, планы Дисперсионного анализа главных эффектов предназначены для категориальных предикторов. Множественная регрессия является простой регрессией для 2 или большего числа непрерывных предикторов. Например, уравнение регрессии для эффектов первого порядка 3 непрерывных предикторов P, Q и R будет выглядеть следующим образом

Y = b0 + b1P + b2Q + b3R

Более полная информация о методах множественной регрессии приведена описании модуля Множественная регрессия.

Факторная регрессия

Факторная регрессия является аналогом факторного Дисперсионного анализа, планы регрессии содержат различные комбинации уровней факторов. Однако, в факторной регрессии, возможное число сочетаний уровней непрерывного предиктора может быть намного больше числа наблюдений. Не вдаваясь в подробности, полный факторный регрессионный план определяется как, план в котором представлены все возможные наблюдения непрерывных предикторов. Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет содержать главные эффекты (т.е., эффекты первого порядка) P и Q и эффект их 2-го P на Q взаимодействия, который является произведением значений P и Q, для каждого наблюдения. Уравнение регрессии будет выглядеть следующим образом:

Y = b0 + b1P + b2Q + b3P*Q

Факторный регрессионный план может быть также и дробным, при этом эффекты более высокого порядка можно убрать из плана. Например, дробный факторный регрессионный план 2 степени для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты и все 2-ые взаимодействия предикторов:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Полиномиальная регрессия

Планы полиномиальной регрессии содержат как главные эффекты, так и эффекты более высоких порядков непрерывных переменных, но при этом не включают в себя взаимодействия предикторов. Например, план полиномиальной регрессии 2 порядка для трех непрерывных предикторов P, Q и R будет содержать главные эффекты (т.е., эффекты первого порядка) переменных P, Q, R и их квадратические (т.е., второго порядка) эффекты но, при этом в план не будут включены 2-ые взаимодействия и эффект тройного взаимодействия P на Q на R.

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Максимальная степень эффектов полиномиальной регрессии может быть разной для разных предикторов. Например, для одного предиктора заданы все эффекты до третьего порядка, а для другого — до четвертого порядка.

Регрессия поверхности отклика

План регрессии поверхности отклика второго порядка является гибридом плана полиномиальной регрессии и плана дробной факторной регрессии. План квадратичной регрессии поверхности отклика содержит эффекты 2-го порядка полиномиальной регрессии и эффекты взаимодействия 2-го порядка предикторов. Например, регрессионное уравнение поверхности отклика второго порядка для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Данные типы планов используются в прикладных исследованиях (например, в промышленном планировании и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Центральные композиционные планы).

Регрессия поверхности смеси

Регрессии поверхности смеси является аналогом факториальной регрессии 2-го порядка без свободного члена. Смеси, как отображено в название, соответствую некоторой константе; сумма пропорций ингредиентов должна составлять 100%. Таким образом, пропорция одного из ингредиентов соответствует остатку от остальных ингредиентов, т.е. число степеней свободы пропорций ингредиентов меньше числа ингредиентов на 1. Понижение размерности модели поверхности смеси обходят путем опущения свободного члена в плане регрессии. Матрица плана для поверхности смеси для 3 непрерывных предикторов P, Q, R будет выглядеть следующим образом:

Y = b1P + b2P2 + b3Q + b4P*Q + b5P*R + b6Q*R

Данные типы планов используются в прикладных исследованиях (например, в промышленном планирование и анализе экспериментов). Более подробное описание данных планов представлено в разделе Обзор модуля Планирование эксперимента (смотри Планы для смесей).

Однофакторный Дисперсионный анализ

Планами однофакторного Дисперсионного анализа называют планы с одним категориальным предиктором. Например, изучение эффектов воздействия 4 различных удобрений на различные виды растений, можно проанализировать при помощи однофакторного ДА, с четырьмя уровнями фактора Удобрение.

Рассмотри категориальный предиктор A, содержащего по 1 наблюдению в каждой из 3 его категорий. Используя сигма-ограниченный способ кодирования A на 2 контрастных переменных, получим матрицу X, задающую матрицу плана:

То есть, наблюдения в группах A1, A2 и A3 соответствуют 1 в столбце X0 (свободный член), наблюдения в группе A1 соответствуют 1 в X1 и значению 0 в X2, наблюдения в группе A2 соответствуют 0 в X1 и 1 в X2 и наблюдения в группе A3 соответствуют -1 в X1 и -1 в X2. Каждое дополнительное наблюдение будет закодировано аналогичным образом. Например, если было бы 1 наблюдение в группе A1, 2 наблюдения в группе A2 и 1 наблюдение в группе A3 то, матрица X выглядела бы так:

где первый индекс A соответствует номеру повторного эксперимента в каждой группе. Для краткости описания, повторные измерения обычно не отображаются при описании матрицы плана Дисперсионного анализа.

Заметьте, что в однофакторных планах, с одинаковым числом наблюдений в каждой группе, сигма-ограниченное кодирование выделяет переменные X1 … Xk со средним равным 0.

Данный простой пример показывает, что использование X матрицы преследует две основных цели. Задание (1) кодирования для каждого уровня предиктора при помощи переменных X, используемых в анализе и (2) отображение природы, числа и порядка расположения переменных X, которые характеризуют межгрупповой план.

Дисперсионный анализ главных эффектов

Дисперсионный анализ главных эффектов предназначен для анализа планов с 2 или большим числом категориальных предикторов. Пример анализа главных эффектов основывается на типичном анализе отсеивающих планов, описанном в контексте модуля Планирование эксперимента.

Рассмотрим 2 категориальных предиктора A и B с 2 категориями, каждый. Использование сигма-ограниченное кодирование X матрицы, задает межгрупповой план:

Заметьте, если в каждой группе содержится одинаковое число наблюдений то, сумма построчных произведений столбцов X1 на X2 равна 0, например, с 1 наблюдением в каждой группе (1*1)+(1*-1)+(-1*1)+(-1*-1) = 0.

Факторный Дисперсионный анализ

Планы факторного Дисперсионного анализа содержат переменные, содержащиеся в X матрице, характеризующие комбинации уровней 2 или более категориальных предикторов (например, изучение мальчиков и девочек в четырех возрастных группах является 2 (Пол) x 4 (Группа) планом). В частности, полный факторный план представляет собой набор всех возможных комбинаций уровней категориальных предикторов. Полный факторный план с 2 категориальными предикторами A и B, каждый с 2 уровнями, называется 2 x 2 полным факторным планом. Используя сигма-ограниченного кодирование, матрица X будет выглядеть так:

Следует прокомментировать некоторые особенности матрицы X. Заметьте что, столбцы X1 и X2 представляют собой главные эффекты (т.е., A и B, соответственно) свертывая по уровням других переменных. Столбец X3 представляет контраст между различными комбинациями уровней A и B. Значения X3 являются результатом произведения значений X1 и X2. Переменная X3 представляет собой взаимодействие эффектов мультипликаторов, в таком случае X3 называют 2-ым взаимодействием A и B. Взаимодействия такого рода произведения переменных и зависимой переменной отображает интерактивное воздействие факторов на отклик до и после их независимого влияния (т.е., главные эффекты) на отклик. Таким образом, факторные планы предоставляют больше информации о взаимодействиях между категориальными предикторами и их откликом на зависимую переменную, чем однофакторные планы или планы главных эффектов.

При изучении влияния большого числа факторов, зачастую, полный факторный план требует очень большого числа наблюдений, чем реально можно получить для анализа, для представления всех возможных комбинаций уровней факторов и взаимодействий между всеми факторами. При большом числе факторов, наиболее приемлемой альтернативой является дробный факторный план. Например, рассмотрим 2 x 2 x 2 дробный факторный план степени 2 с 3 категориальными предикторами, каждый из которых имеет 2 уровня. План будет содержать главные эффекты всех переменных и все 2-ые взаимодействия, но не будут включать 3-ые взаимодействия между всеми тремя переменными. Более детальное рассмотрение данных планов приводится в разделе 2(k-p) Дробные факторные планы главы Вводный обзор модуля Планирование эксперимента.

Ковариационный анализ (ANCOVA)

Межгрупповые планы, содержащие категориальные и непрерывные предикторы, называют ANCOVA планами. Традиционно, ANCOVA планы используются при анализе, в котором при оценке эффектов категориальных предикторов учитываются эффекты первого порядка одного или нескольких непрерывных предикторов. Основные элементы ковариационного анализа, вы сможете найти в главе Ковариационный анализ (ANCOVA) в описании модуля Дисперсионный анализ.

Проиллюстрируем выше сказанное, предположим что, исследователь хочет оценить влияние категориального предиктора A с 3 уровнями на некоторый выход, кроме того, известно, что непрерывный предиктор P коррелируют с выходом. Пусть файл данных представлен следующим образом:

Тогда, матрица плана сигма-ограниченной модели X, содержащего раздельные эффекты первого порядка P и A, будет выглядеть следующим образом:

Коэффициенты b2 и b3 уравнения регрессии

Y = b0 + b1X1 + b2X2 + b3X3

представляют собой влияние, оказываемое элементами группы на категориальный предиктор A, контролирующий влияние значений на непрерывный предиктор P. Аналогичным образом, коэффициент b1 представляет собой влияние значений P на элементы группы A. Данный стандартный пример Ковариационного анализа представляет собой более качественную проверку воздействия A по мере того, как P уменьшает ошибку предсказания, характеризуемую остатками выхода.

Однородность угловых коэффициентов

Данный тип планов используется при анализе влияния непрерывных и категориальных предикторов и их взаимодействий на отклик. Традиционный ковариационный анализ (ANCOVA) для непрерывных и категориальных предикторов используется при отсутствии значимого влияния их взаимодействия на отклик. Для данного типа планов, используем тот же пример что, и для стандартного плана ANCOVA, сигма-ограниченная X матрица для однородных углов наклона будет выглядеть так:

Использование данной матрицы плана X, в случае когда, регрессионные коэффициенты b4 и b5

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

равны нулю, эквивалентно использованию плана Ковариационного анализа ANCOVA.


Многомерные планы

План называется многомерным, если в нем присутствует несколько зависимых переменных. Показатели многомерной взаимосвязи, по своей природе, являются намного более сложными структурами, чем одномерные аналоги (например, корреляционные коэффициенты). Это связано с тем что, многомерные показатели должны учитывать не только воздействия предикторов на отклики но, и взаимосвязи среди зависимых переменных. Используя данный подход, получаем что, показатели взаимосвязи должны отражать информацию о силе взаимосвязи между предикторами и зависимыми переменными независимо от взаимосвязи между зависимыми переменными. Обзорную информацию о многомерных планах вы сможете найти в разделе Многомерные планы в описании модуля Дисперсионный анализ.

Наиболее часто используемые показатели меры многомерной зависимости можно представить при помощи функций от собственных значений матрицы произведения E-1H, где E — матрица ошибок SSCP (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые не были учтены в межгрупповом плане), H — SSCP матрица гипотезы (т.е., матрица суммы квадратов и кросс-произведений зависимых переменных, которые были учтены в межгрупповом плане или тоже самое для конкретного эффекта). Если

li = упорядоченные собственные значения матрицы E-1H, и E-1 существует

тогда, наиболее часто используемыми показателями являются:

Лямбда Уилкса = Х1/(1 + li)

След Пиллая = S li / (1 + li)

След Хотеллинга — Лоули = S li

Максимальный корень Роя = li

Данные 4 показателя обладают различными верхними и нижними границами и степенью интерпретации. Например, легче всего интерпретируется Лямбда Уилкса, для которого значения изменяются от 0 и до 1, 1 характеризует отсутствие зависимости, а 0 наличие сильной взаимосвязи между предикторами и откликом. Показатель равный 1 — Лямбда Уилкса иногда интерпретируется как многомерный аналог одномерного показателя R-квадрат, т.е., отражает отношение обобщенной дисперсии зависимых переменных вычисленной на основе предикторов.

Данные 4 показателя используются при построении многомерных критериев значимости, описание которых вы сможете найти в большом количестве различных источников (например, Finn, 1974; Tatsuoka, 1971).


Построение общей модели

Ниже приведены разделы, в которых описывается построение и тестирование гипотез «общей модели» в модуле GRM, например, каким образом разбиты квадраты и насколько хорошо подогнана общая модель.

Разбиение суммы квадратов

В основе метода наименьших квадратов лежит принцип разделения дисперсии зависимой переменной. Предположим, что зависимая переменная является откликом одного или нескольких предикторов и для удобства будем считать что, среднее зависимой переменной равно 0. Последнее предположения является вполне естественным, так как мы всегда можем вычесть из зависимой переменной ее среднее и затем оценивать уже усредненную переменную. В таком случае, сумма квадратов усредненной зависимой переменной идентична сумме квадратов предсказанных значений плюс сумма квадратов остатков. Более формально:

где в левой части стоит сумма квадратов отклонений от среднего наблюдаемых значений зависимой переменной, и соответствующие элементы в правой части (1) сумма квадратов отклонений предсказанных значений зависимой переменной и (2) сумма квадратов отклонений наблюдаемых значений от предсказанных значений зависимой переменной, что эквивалентно сумме квадратов остатков. Формально:

Общая SS = SS Модели + SS Ошибки

Заметьте, что Общая SS является всегда одним и тем же числом для выбранных данных, но при этом SS Модели и SS Ошибки зависят от уравнении регрессии. Полагая, что зависимая переменная имеет среднее 0, получим что, SS Модели и SS Ошибки можно вычислить следующим образом

SS Модели = b’X’Y

SS Ошибки = Y’Y — b’X’Y

Тестирование Общей модели

Обладая компонентами SS Модели и SS Ошибки, вы можете проверить гипотезу о том что, все регрессионные коэффициенты X переменных (с b1 по bk, кроме коэффициента b0 — свободного члена) равны нулю. Данный критерий эквивалентен проверке качества подгонки поверхности регрессии (определяемой уравнением регрессии модели). Предположим, что X’ X является полно-ранговой (не вырожденной) матрицей, тогда гипотеза средних квадратов модели:

MSH = (SS Модели)/k,

где k — число столбцов матрицы X (не включая столбец свободного члена), является оценкой дисперсии предсказанных значений. Усредненный квадрат ошибки:

s2 = MSE = (SS Ошибки) / (n — k — 1),

где n — число наблюдений, оценка дисперсии ошибки или остатков. Проверочная статистика:

F = MSH / MSE,

где F имеет (k, n — k — 1) степеней свободы.

Если X’ X не является полно ранговой, то r + 1 заменяется на k, где r — ранг или число линейно-независимых столбцов X’ X.

Если критерий модели не значим, то проводить дальнейший анализ не имеет смысла, т.е. модель подгоняет данные не лучше, чем модель, содержащая только среднее значение зависимой переменной. Дальнейший поиск адекватной подмодели является бессмысленным, так как общая модель является неадекватной.

Некоторые модели без свободного члена, например, некоторые модели множественной регрессии вычисляют критерии проверки на основе отношения дисперсии без учета средних значений; для получения более полной информации (смотри Kvеlseth, 1985; OKunade, Chang, and Evans, 1993).

Ограничения Общей модели

Для планов, таких как Однофакторный ДА или простой регрессии, проверка общей гипотезы о взаимосвязи предикторов и отклика вложена в саму модель. Для сложных планов, поиск статистически значимых критериев проверки подгонки общей модели является первым шагом анализа; иногда приходится определять более простую подмодель адекватной подгонки данных (смотри Основные идеи: Использование простых моделей). К данному случаю, методы поиска наилучших подмоделей, относятся модели такие как: пошаговый и регрессии наилучших подмножеств.


Построение модели при помощи пошаговой регрессии

Описание пошаговой системы построения регрессионных планов с единственной зависимой переменной приводится в большом количестве статей и различного рода литературе (например, смотри Darlington, 1990; Hocking, 1966, Lindeman, Merenda и Gold, 1980; Morrison, 1967; Neter, Wasserman и Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). Основные процедуры включают: (1) определение и инициализация модели, (2) итеративный «пошаговый,» то есть, повторяющееся преобразование модели путем добавления или вычитание предиктора, исходя из результатов применения «пошагового критерия» и (3) остановка алгоритма после отсутствия возможных следующих итераций или достижения максимального числа шагов.

Начальная модель пошаговой регрессии

Начальной моделью является модель созданная на Шаге 0. Начальная модель всегда включает регрессионный свободный член (если не указано Без свободного члена). Для методов пошаговый с исключением и только с исключением, начальные модели так же включают в себя все эффекты плана анализа. Начальная модель для данных методов является также и общей моделью.

Для методов пошаговый с включением и только с включением, начальная модель всегда содержит свободный член регрессии (если не указано Без свободного члена). Так же начальная модель содержит 1 или более вовлеченных эффектов модели. Если выбрано j вовлеченных эффектов в модель, то первые j эффектов выбранных из общего числа эффектов для включения будут вовлечены в модель на Шаге 0 (более полную информацию вы найдете в описание опции Количество эффектов). Заметьте, что вовлеченные эффекты нельзя удалить на последующих Шагах.

Метод только с включением

Метод с только с включением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика включения. Если начиная с некоторого шага все статистики включения не превышают заданный критический уровень включения, то процесс останавливается, в противном случае, эффект с наибольшей статистикой включается в модель. При достижении максимального числа шагов, процедура включения также останавливается.

Метод только с исключением

Метод с только с исключением является наиболее простым методом построения модели в GRM. На каждом шаге, начиная с Шага 0, для каждого допустимого элемента вычисляется статистика исключения. Если начиная с некоторого шага все статистики исключения превышают заданный критический уровень исключения, то процесс останавливается, в противном случае, эффект с наименьшей статистикой исключается из модели. При достижении максимального числа шагов, процедура исключения также останавливается.

Метод с пошаговым включением

Пошаговый метод с включением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с включением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.

Метод с пошаговым исключением

Пошаговый метод с исключением является комбинацией процедур используемых в методах только с включением и только с исключением. На Шаге 1 выполняется процедура только с исключением. На каждом последующем шаге, на котором 2 или более эффектов было выбрано, производится процедура включения или исключения, если выполнены соответствующие для этого условия. Процедура останавливается, если учтены все эффекты или превышено максимальное число шагов.

Критерий включения и исключения

Критические значения F и p задаются для контроля включения и исключения эффектов модели. Для выбранного значения p, реальным значением характеризующим включение и исключение является 1 минусp. Критическое значение для включения в модель должно превышать критическое значение для исключения из модели.

Так же можно указать максимальное число шагов. Остановка пошагового алгоритма происходит при достижении максимального числа шагов, если не произошла ранее по каким-либо причинам.

Построение модели при помощи нахождения Лучшего подмножества

Для поиска «наилучшей модели», которая наилучшим образом описывает реальные данные, используются все возможные комбинации предикторов (подмножества) как альтернатива или как элемент взаимодействия с пошаговым методом.

В работе Neter, Wasserman и Kutner (1985) приведено описание использования метода регрессии наилучшего подмножества во взаимодействии с методом пошаговой регрессии: «Алгоритм метода пошаговой регрессии основывается на том, что существует только одно «наилучшее» подмножество переменных X. Данное предположение является ограничением возможностей алгоритма, как замечено ранее, часто бывает так, что нельзя найти единственное «наилучшее» подмножество. Однако некоторые статистики советуют перебрать поочередно все возможные подмножества, с числом переменных X полученных в пошаговой регрессии, для поиска лучшего подмножества.» (p. 435). Фактически получаем, что после нахождения решения пошаговой регрессии, «наилучшее» среди всех возможных подмножеств с тем же числом эффектов необходимо проверить является ли данное подмножество «наилучшим.» Если это не так, решение пошагового алгоритма стоит отклонить.

Заметьте, что для определения «наилучшего» подмножества можно использовать несколько критериев. Наиболее часто используемыми критериями являются: множественное R-квадрат, скорректированное R-квадрат и Cp Маллоу. При использовании регрессии наилучшего подмножества вместе с пошаговым методом, статистика R-квадрат позволяет упорядочить по качеству подгонки полученные подмножества каждого метода.

Число допустимых подмоделей возрастает очень резко с ростом числа эффектов в общей модели. Объем вычислений требуемых для проведения регрессии наилучшего подмножества так же возрастает с числом допустимых подмножеств, кроме этого увеличение числа уровней категориальных предикторов вызывает быстрый рост числа операций. Например, существует более 2.7 миллионов различных способов задания 12 предикторов из 24 предикторов общей модели, т.е. необходимо обработать 2.7 миллионов моделей для оценки наилучшего подмножества из 12 предикторов.


Все права на материалы электронного учебника принадлежат компании StatSoft


Стандартный прогноз методом мульти-линейной регрессии

Объем функций

Цель мульти-линейной регрессии заключается в предсказании будущих значений одной зависимой переменной с использованием независимых (или объяснительных) переменных, для которых известны значения в прошлом и можно спрогнозировать значения в будущем. Каждая переменная предиктора (Xi) взвешивается, и полученный вес (ßi) означает их относительный вклад в общий прогноз. При вычислении весов (параметры модели) процедура регрессионного анализа обеспечивает наилучший прогноз на основе набора независимых переменных. Эти веса также помогают интерпретировать вклад каждой переменной в прогноз, хотя корреляция между независимыми переменными может усложнить процесс интерпретации.

Мульти-линейная регрессии обычно представляется следующим образом:

Y = b0 + b1X1 + b2X2 + b3X3…ßnXn + ei

где:

Y = независимая переменная

ß0 = точка пересечения с осью Y или константа

ßi = коэффициент или вес

Xi = независимые переменные

ei = оставшаяся ошибка или ошибка прогноза

Для модели мульти-линейной регрессии делаются следующие предположения.

  • X являются нестохастическими.

  • Между двумя или несколькими объяснительными переменным не существуют точного линейного отношения.

  • Ошибки, соответствующие различным наблюдениям, независимы и, следовательно, они не коррелируются.

  • Переменная ошибки имеет нормальное распределение или распределение Пуассона.

  • Ожидаемое значение переменной ошибки равно 0.

Операции

Параметры настройки стандартного прогноза методом мульти-линейной регрессии можно задать в профиле мульти-линейной регрессии. Например, здесь можно принять решение о том, какое распределение следует использовать, а также является ли отклонение постоянным для всех наблюдений или же это переменная величина. Для получения дополнительной информации см. раздел Профиль мульти-линейной регрессии.

примеры и вычисление функции потерь

Линейная регрессия (Linear regression) — модель зависимости переменной x от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.

Линейная регрессия относится к задаче определения «линии наилучшего соответствия» через набор точек данных и стала простым предшественником нелинейных методов, которые используют для обучения нейронных сетей. В этой статье покажем вам примеры линейной регрессии.

Применение линейной регрессии

Предположим, нам задан набор из 7 точек (таблица ниже).

Цель линейной регрессии — поиск линии, которая наилучшим образом соответствует этим точкам. Напомним, что общее уравнение для прямой есть f (x) = m⋅x + b, где m — наклон линии, а b — его y-сдвиг. Таким образом, решение линейной регрессии определяет значения для m и b, так что f (x) приближается как можно ближе к y. Попробуем несколько случайных кандидатов:

Довольно очевидно, что первые две линии не соответствуют нашим данным. Третья, похоже, лучше, чем две другие. Но как мы можем это проверить? Формально нам нужно выразить, насколько хорошо подходит линия, и мы можем это сделать, определив функцию потерь.

Функция потерь — метод наименьших квадратов

Функция потерь — это мера количества ошибок, которые наша линейная регрессия делает на наборе данных. Хотя есть разные функции потерь, все они вычисляют расстояние между предсказанным значением y(х) и его фактическим значением. Например, взяв строку из среднего примера выше, f(x)=−0.11⋅x+2.5, мы выделяем дистанцию ошибки между фактическими и прогнозируемыми значениями  красными пунктирными линиями.

Одна очень распространенная функция потерь называется средней квадратичной ошибкой (MSE). Чтобы вычислить MSE, мы просто берем все значения ошибок, считаем их квадраты длин и усредняем.

Вычислим MSE для каждой из трех функций выше: первая функция дает MSE 0,17, вторая — 0,08, а третья — 0,02. Неудивительно, что третья функция имеет самую низкую MSE, подтверждая нашу догадку, что это линия наилучшего соответствия.

Рассмотрим приведенный ниже рисунок, который использует две визуализации средней квадратичной ошибки в диапазоне, где наклон m находится между -2 и 4, а b между -6 и 8.

Слева: диаграмма, изображающая среднеквадратичную ошибку для -2≤m≤4, -6≤p≤8 Справа: тот же рисунок, но визуализирован как контурный график, где контурные линии являются логарифмически распределенными поперечными сечениями высоты.

Глядя на два графика, мы видим, что наш MSE имеет форму удлиненной чаши, которая, по-видимому, сглаживается в овале, грубо центрированном по окрестности (m, p) ≈ (0.5, 1.0). Если мы построим MSE линейной регрессии для другого датасета, то получим аналогичную форму. Поскольку мы пытаемся минимизировать MSE, наша цель — выяснить, где находится самая низкая точка в чаше.

Больше размерностей

Вышеприведенный пример очень простой, он имеет только одну независимую переменную x и два параметра m и b. Что происходит, когда имеется больше переменных? В общем случае, если есть n переменных, их линейная функция может быть записана как:

f(x) = b+w_1*x_1 + … + w_n*x_n

Один трюк, который применяют, чтобы упростить это — думать о нашем смещении «b», как о еще одном весе, который всегда умножается на «фиктивное» входное значение 1. Другими словами:

f(x) = b*1+w_1*x_1 + … + w_n*x_n

Добавление измерений, на первый взгляд, ужасное усложнение проблемы, но оказывается, постановка задачи остается в точности одинаковой в 2, 3 или в любом количестве измерений. Существует функция потерь, которая выглядит как чаша — гипер-чаша! И, как и прежде, наша цель — найти самую нижнюю часть этой чаши, объективно наименьшее значение, которое функция потерь может иметь в отношении выбора параметров и набора данных.

Итак, как мы вычисляем, где именно эта точка на дне? Распространенный подход — обычный метод наименьших квадратов, который решает его аналитически. Когда есть только один или два параметра для решения, это может быть сделано вручную, и его обычно преподают во вводном курсе по статистике или линейной алгебре.

Проклятие нелинейности

Увы, обычный МНК не используют для оптимизации нейронных сетей, поэтому решение линейной регрессии будет оставлено как упражнение, оставленное читателю. Причина, по которой линейную регрессию не используют, заключается в том, что нейронные сети нелинейны.

Различие между линейными уравнениями, которые мы составили, и нейронной сетью — функция активации (например, сигмоида, tanh, ReLU или других).

Эта нелинейность означает, что параметры не действуют независимо друг от друга, влияя на форму функции потерь. Вместо того, чтобы иметь форму чаши, функция потерь нейронной сети более сложна. Она ухабиста и полна холмов и впадин. Свойство быть «чашеобразной» называется выпуклостью, и это ценное свойство в многопараметрической оптимизации. Выпуклая функция потерь гарантирует, что у нас есть глобальный минимум (нижняя часть чаши), и что все дороги под гору ведут к нему.

Минимум функции

Но, вводя нелинейность, мы теряем это удобство ради того, чтобы дать нейронным сетям гораздо большую «гибкость» при моделировании произвольных функций. Цена, которую мы платим, заключается в том, что больше нет простого способа найти минимум за один шаг аналитически. В этом случае мы вынуждены использовать многошаговый численный метод, чтобы прийти к решению. Хотя существует несколько альтернативных подходов, градиентный спуск остается самым популярным методом.

Независимая переменная — связывание независимых и зависимых переменных

Что такое независимая переменная?

Независимая переменная — это входные данные, допущения или драйверы, которые изменяются для оценки их влияния на зависимую переменную (результат). Думайте о независимой переменной как о вводе, а о зависимой переменной как о выводе. Что такое финансовое моделирование Финансовое моделирование выполняется в Excel для прогнозирования финансовых показателей компании. Обзор того, что такое финансовое моделирование, как и зачем его создавать.и анализа, аналитик обычно выполняет анализ чувствительности Что такое анализ чувствительности? Анализ чувствительности — это инструмент, используемый в финансовом моделировании для анализа того, как различные значения для набора независимых переменных влияют на зависимую переменную в Excel, что предполагает изменение допущений в модели для наблюдения влияние на выход.

Создание независимой переменной

При построении модели Excel3 Модель отчета Модель отчета 3 связывает отчет о прибылях и убытках, баланс и отчет о движении денежных средств в одну динамически связанную финансовую модель.Примеры, руководство, аналитик должен хорошо подумать о том, как настроить независимую переменную в разделе предположений. Это входные данные, которые будут управлять моделью и результирующими выходными данными.

Один из лучших способов выбора допущений — выполнить анализ первопричин. Например, что вызывает колебания дохода? Объем и цена. Что вызывает изменение громкости? Количество предлагаемых товаров и количество магазинов. Процесс продолжается до тех пор, пока аналитик не определит все независимые переменные, которые могут использоваться для управления моделью.

Связывание независимых и зависимых переменных

После того, как переменные определены и настроены в Excel, следующая задача — создать формулы и функции, которые определяют выходные данные. Например, количество магазинов, умноженное на количество продуктов, проданных в каждом магазине, умноженное на среднюю цену продукта, равняется общему доходу.

После создания функции на зависимую переменную, выручку, будут влиять изменения в любых базовых допущениях и драйверах.

На этом этапе необходимо выполнить некоторые тесты, чтобы убедиться, что связывание правильно настроено и зависимая переменная изменяется, как ожидалось, с изменениями в предположениях.

Изменение независимой переменной

После того, как модель построена, пора начать изменять допущения и драйверы, чтобы увидеть их влияние на зависимую переменную, а также проверить гипотезы, запустить сценарии, анализ сценария Анализ сценария — это процесс изучение и оценка возможных событий или сценариев, которые могут произойти в будущем, а также прогнозирование и измерение чувствительности.

Например, аналитик может начать вручную изменять каждое допущение и записывать изменение зависимой переменной (в данном случае выручки).

Другой вариант — создать таблицы данных в Excel, которые могут автоматически записывать числа и удобно хранить их в аккуратной таблице.

Наконец, аналитик может запускать отдельные сценарии, в которых ряд изменений вносится в предположения с привязанной к ним историей (например, «оптимистический сценарий» компании, когда все идет хорошо).

Пример изменения независимой переменной

Давайте посмотрим на пример того, как настроить модель, которая может изменять независимую переменную для проверки гипотезы и измерения чувствительности к изменениям.

В этой простой модели, которую мы создали, вы можете увидеть эффект изменения переменной.

Аналитик задаст вопрос: с учетом всех допущений, каково оптимальное количество сотрудников в магазине, с которым должна работать эта компания?

Мы знаем, что сотрудники приносят в среднем 175 000 долларов каждый, но при этом наблюдается уменьшение отдачи на 5% от количества сотрудников в каждом магазине.Заработная плата на одного сотрудника остается прежней.

Загрузите шаблон модели чувствительности CFI, чтобы проверить числа и самостоятельно рассчитать различные сценарии.

На основе модели оптимальное количество сотрудников (независимая переменная) составляет 10 на магазин, чтобы максимизировать прибыль (зависимая переменная).

Решатель в Excel

Решение может быть вычислено с помощью функции решателя Excel.Следуйте приведенному ниже снимку экрана, чтобы проверить это решение самостоятельно.

Вот шаги, которые необходимо предпринять:

  1. Щелкните на ленте данных.
  2. Щелкните функцию «Решатель».
  3. «Установить цель» для ячейки прибыли (F10).
  4. Найдите «Макс.»
  5. «Путем изменения ячеек переменных», которые содержат количество сотрудников (C6).
  6. Щелкните Решить.

В результате отобразится 10.

Вы также можете вручную протестировать это решение, изменив независимую переменную, пока не придете к решению, приведенному выше.

Загрузите шаблон Excel CFI по независимым переменным.

Дополнительные ресурсы

Благодарим вас за то, что вы прочитали это руководство по пониманию независимых и зависимых переменных.

CFI является официальным поставщиком услуг по финансовому моделированию и оценке (FMVA) ® Стать сертифицированным аналитиком финансового моделирования и оценки (FMVA) ® Сертификат CFI по финансовому моделированию и оценке (FMVA) ® поможет вам обрести уверенность, в которой вы нуждаетесь. ваша финансовая карьера.Знак «Зарегистрируйтесь сегодня!», Созданный, чтобы помочь превратить любого в финансового аналитика мирового уровня. Чтобы продолжить обучение и продвигаться по карьерной лестнице, вам будут полезны следующие дополнительные ресурсы CFI:

  • Типы финансовых моделей Типы финансовых моделей Наиболее распространенные типы финансовых моделей включают в себя: модель с тремя отчетами, модель DCF, модель M&A, модель LBO, модель бюджета. Откройте для себя 10 основных типов
  • Лучшие практики финансового моделирования Передовые методы финансового моделирования Эта статья предоставляет читателям информацию о передовых методах финансового моделирования и простое пошаговое руководство по построению финансовой модели.
  • Анализ сценария Анализ сценария Анализ сценария — это процесс изучения и оценки возможных событий или сценариев, которые могут произойти в будущем, и прогнозирования
  • Методы оценки Методы оценки При оценке компании как непрерывно действующей используются три основных метода оценки: DCF-анализ, сопоставимые компании и предшествующие операции

Анализ поведения затрат — анализ затрат и мероприятий, пример

Что такое анализ поведения затрат?

Анализ поведения затрат относится к попытке руководства понять, как изменяются операционные затраты в связи с изменением уровня деятельности организации.Эти затраты могут включать прямые материалы, прямые затраты на оплату труда и накладные расходы, понесенные при разработке продукта. Руководство обычно выполняет анализ поведения затрат с помощью математических функций затрат.

Функции затрат — это описания того, как затраты (например, материалы, рабочая сила или накладные расходы) изменяются с изменениями уровня активности, относящейся к этим затратам. Например, общие переменные затраты изменятся в зависимости от увеличения активности, в то время как постоянные затраты останутся прежними. Функции затрат могут иметь различные формы.

Чтобы узнать больше, запустите наши курсы финансового анализа!

Допущения функции затрат

Функции затрат обычно задаются в форме y = mx + b и могут быть нанесены на график.

Чтобы определить эти функции затрат, менеджеры обычно делают следующие предположения из соображений простоты:

  • Вариации в драйвере затрат объясняют различия в соответствующих общих затратах.
  • Поведение затрат можно обобщить в виде линейной функции затрат в соответствующем диапазоне.

Под релевантным диапазоном здесь понимается диапазон деятельности, в котором сохраняется связь между общими затратами и уровнем активности. Однако в реальных ситуациях не все функции затрат являются линейными и также не объясняются одним драйвером затрат.

Чтобы научиться чему-то по видео-примеру, пройдите наши курсы финансового анализа!

Количественный анализ затрат

Руководство обычно использует методы количественного анализа для иллюстрации функций затрат.Самый простой подход — метод high-low. В этом методе для определения функции затрат используются только самые высокие и самые низкие значения драйвера затрат и соответствующих им затрат.

Хотя у этого подхода много ограничений, это простая первая попытка изучить взаимосвязь между драйвером затрат и общими затратами.

Регрессионный анализ — это еще один метод, который использует статистические методы для измерения средней величины изменения зависимой переменной, связанной с изменениями в независимой переменной.Регрессионный подход намного лучше показывает взаимосвязь между переменными. Программное обеспечение, такое как Microsoft Excel, является полезным инструментом для выполнения регрессионного анализа.

Пример поведения высоких и низких затрат

Компания XYZ хотела бы изучить, как накладные расходы ведут себя при изменении рабочего времени:

9017 9017
Месяц Общие накладные расходы Рабочее время
март 50 000 долл. США 2 000
апрель 70 000 3 000
май 55 000 1,500 июль 55,000 1,000
август 65,000 2,000
сентябрь 45,000 1,500
2,500
декабрь 60,000 2,500

Вот наблюдаемые данные о затратах:

6
Часы 80 000 долл. США
Наименьшее наблюдение (1000) (55 000)
Разница 3000 25000
9000

9000 4/9 3000 = 8 долларов.33

Перехват Y или фиксированная стоимость: 55 000 — 8,33 * 1000 = 46 667 долларов США

Следовательно, функция полной стоимости: Y = 8,33 x + 46 667. Это означает, что за каждый дополнительный час труда общие накладные расходы увеличиваются на 8,33 доллара США.

Дополнительные примеры см. В нашем курсе основ финансового анализа.

Регрессионный подход к поведению затрат

При использовании регрессионного анализа поведения затрат подход довольно похож, но использует все точки данных, а не только самые высокие и самые низкие значения.

Используя функцию регрессии в MS Excel, мы можем получить результат ANOVA, который дает функцию стоимости Y = 8,72x + 39,502.

Это означает, что за каждый дополнительный час труда общие накладные расходы увеличиваются на 8,72 доллара США, а при отсутствии рабочих часов общие накладные расходы будут просто равны фиксированным затратам в размере 39 502 доллара США.

В рамках регрессионного подхода мы можем проанализировать функцию затрат с использованием нескольких критериев:

Экономическая достоверность Степень соответствия Доверие
Основная концепция Правдоподобно ли, что общие накладные расходы зависят / определяются количеством рабочих часов? Определяется значением R в квадрате выходных данных регрессии.Чем выше число, тем большее изменение зависимой переменной можно объяснить независимой переменной. Связь между стандартной ошибкой и пересечением (фиксированные затраты) и переменной x (переменные затраты)
Анализ примера Кажется логичным, что общие накладные расходы и рабочее время связаны. R в квадрате составляет 0,64. Итак, 64% изменения накладных расходов можно объяснить изменением рабочего времени. Если T-stat больше 2, соотношение является приемлемым.

Узнайте о регрессионном анализе в нашем курсе финансовой математики!

Загрузите бесплатный шаблон

Введите свое имя и адрес электронной почты в форму ниже и загрузите бесплатный шаблон прямо сейчас!

Шаблон анализа поведения затрат

Загрузите бесплатный шаблон Excel, чтобы углубить свои знания в области финансов!

Дополнительные методы анализа затрат

В приведенном выше содержании мы рассмотрели два метода анализа поведения затрат.Однако многие компании часто исследуют взаимосвязь между несколькими независимыми переменными и одной зависимой переменной.

Часто компании могут также проводить анализ каждой переменной, а затем проводить комбинированный анализ для дальнейшего изучения влияния каждой независимой переменной на зависимую переменную. Общий вывод состоит в том, что существует множество различных способов анализа данных о динамике затрат внутри компании, и руководство должно решить, насколько углубленно они собираются проводить анализ.

В мире, который все больше ориентируется на экономику, основанную на данных и технологиях, анализ данных различными способами окажется полезным для компаний, если они смогут принять надлежащие и необходимые меры.

Изучите финансовый анализ онлайн прямо сейчас!

Дополнительные ресурсы

Это вводное руководство CFI по анализу поведения затрат. Чтобы продолжить обучение и продвигаться по карьерной лестнице, воспользуйтесь дополнительными ресурсами CFI ниже:

  • Анализ финансовой отчетности Анализ финансовой отчетности Как проводить анализ финансовой отчетности.Это руководство научит вас выполнять анализ финансового отчета отчета о прибылях и убытках.
  • Рентабельность капитала (ROE) Рентабельность капитала (ROE) Рентабельность капитала (ROE) — это показатель прибыльности компании, на который рассчитывается годовая прибыль компании (чистая доход), деленный на стоимость его общего акционерного капитала (т.е. 12%). ROE объединяет отчет о прибылях и убытках и баланс, поскольку чистая прибыль или прибыль сравнивается с собственным капиталом.
  • Рентабельность рекламных расходов (ROAS) ROAS (Рентабельность рекламных расходов) ROAS (Return on Ad Spend) — важный показатель электронной торговли.ROAS измеряет доход, полученный на каждый доллар, потраченный на маркетинг. Это показатель рентабельности, аналогичный метрике рентабельности или «рентабельности инвестиций». ROAS обычно используется в компаниях электронной коммерции для оценки эффективности маркетинговой кампании.
  • Руководство по финансовому моделированию Бесплатное руководство по финансовому моделированию Это руководство по финансовому моделированию содержит советы и передовые практики Excel по предположениям, драйверам, прогнозированию, связыванию трех отчетов, анализу DCF и т. Д.

Что такое регрессионный анализ и почему я должен его использовать?

Alchemer — это невероятно надежная программная платформа для онлайн-опросов.Он постоянно признается одним из лучших инструментов опросов, доступных в G2, FinancesOnline и других. Чтобы сделать это еще проще, мы создали серию блогов, чтобы помочь вам лучше понять, как получить максимальную отдачу от вашей учетной записи Alchemer.

Регрессионный анализ — это мощный статистический метод, который позволяет исследовать взаимосвязь между двумя или более интересующими переменными.

Хотя существует множество типов регрессионного анализа, по сути, все они исследуют влияние одной или нескольких независимых переменных на зависимую переменную.

Регрессионный анализ дает подробные сведения, которые можно применить для дальнейшего улучшения продуктов и услуг.

Здесь, в Alchemer, мы предлагаем практические занятия по применению приложений, в ходе которых клиенты узнают, как стать суперпользователями нашего программного обеспечения.

Чтобы понять ценность этих учебных мероприятий, мы рассылаем участникам дополнительные опросы с целью узнать, что им понравилось, что они не сделали и что мы можем улучшить в будущих сессиях.

Данные, собранные в ходе этих опросов обратной связи, позволяют нам измерить уровни удовлетворенности, которые наши посетители ассоциируют с нашими мероприятиями, и какие переменные влияют на эти уровни удовлетворенности.

Может быть, это темы, затронутые в отдельных сессиях мероприятия? Продолжительность сеансов? Предоставляемые услуги питания или кейтеринга? Стоимость участия? Любая из этих переменных может повлиять на уровень удовлетворенности посетителей.

Выполняя регрессионный анализ данных этого опроса, мы можем определить, повлияли ли эти переменные на общую удовлетворенность посетителей, и если да, то в какой степени.

Затем эта информация информирует нас о том, какие элементы сессий были хорошо восприняты и на каких нам нужно сосредоточить внимание, чтобы посетители были более удовлетворены в будущем.

Что такое регрессионный анализ и что означает выполнение регрессии?

Регрессионный анализ — это надежный метод определения того, какие переменные влияют на интересующую тему. Процесс выполнения регрессии позволяет вам с уверенностью определить, какие факторы имеют наибольшее значение, какие факторы можно игнорировать и как эти факторы влияют друг на друга.

Чтобы полностью понять регрессионный анализ, важно понимать следующие термины:

  • Зависимая переменная: Это основной фактор, который вы пытаетесь понять или предсказать.
  • Независимые переменные: Это факторы, которые, по вашему предположению, влияют на вашу зависимую переменную.

В приведенном выше примере обучения приложения удовлетворенность посетителей мероприятием является нашей зависимой переменной.Обсуждаемые темы, продолжительность занятий, предоставляемое питание и стоимость билета — наши независимые переменные.

Как работает регрессионный анализ?

Для проведения регрессионного анализа вам необходимо определить зависимую переменную, на которую, по вашему предположению, влияет одна или несколько независимых переменных.

Затем вам нужно будет создать исчерпывающий набор данных для работы. Проведение опросов для интересующей вас аудитории — отличный способ создать этот набор данных.Ваш опрос должен включать вопросы, касающиеся всех независимых переменных, которые вас интересуют.

Давайте продолжим использовать наш пример обучения применению. В этом случае мы хотели бы измерить исторические уровни удовлетворенности событиями последних трех лет или около того (или того периода, который вы считаете статистически значимым), а также любую возможную информацию в отношении независимых переменных.

Возможно, нам особенно интересно, как цена билета на мероприятие повлияла на уровень удовлетворенности.

Чтобы начать исследование, существует ли связь между этими двумя переменными, мы должны начать с нанесения этих точек данных на диаграмму, которая будет выглядеть как следующий теоретический пример.

(Нанесение данных на график — это первый шаг в выяснении наличия связи между вашими независимыми и зависимыми переменными)

Наша зависимая переменная (в данном случае уровень удовлетворенности событиями) должна быть нанесена на график y ось, а наша независимая переменная (цена билета на мероприятие) должна быть нанесена на ось абсцисс.

После того, как ваши данные нанесены на график, вы можете начать видеть корреляции. Если теоретическая диаграмма выше действительно отражала влияние цен на билеты на удовлетворенность мероприятием, то мы могли бы с уверенностью сказать, что чем выше цена билета, тем выше уровень удовлетворенности мероприятием.

Но как мы можем определить, насколько цена билета влияет на удовлетворенность мероприятием?

Чтобы ответить на этот вопрос, проведите линию через середину всех точек данных на диаграмме.Эта линия называется линией регрессии, и ее можно точно рассчитать с помощью стандартной статистической программы, такой как Excel.

Мы еще раз воспользуемся теоретической диаграммой, чтобы изобразить, как должна выглядеть линия регрессии.

Линия регрессии представляет отношение между вашей независимой переменной и зависимой переменной.

Excel даже предоставит формулу для наклона линии, которая добавляет дополнительный контекст к отношениям между вашими независимыми и зависимыми переменными.

Формула линии регрессии может выглядеть примерно так: Y = 100 + 7X + член ошибки .

Это говорит вам, что если нет «X», то Y = 100. Если X — это наше увеличение цены билета, это сообщает нам, что если не будет увеличения цены билета, удовлетворенность мероприятием все равно увеличится на 100 пунктов.

Вы заметите, что формула наклона, вычисленная в Excel, содержит ошибку. Линии регрессии всегда учитывают член ошибки, потому что в действительности независимые переменные никогда не являются точными предикторами зависимых переменных.Это имеет смысл при рассмотрении влияния цен на билеты на удовлетворенность мероприятием — очевидно, что существуют и другие переменные, которые влияют на удовлетворенность мероприятием, помимо цены.

Линия регрессии — это просто оценка, основанная на доступных вам данных. Итак, чем больше ваш член ошибки, тем менее определенно ваша линия регрессии.

Почему вашей организации следует использовать регрессионный анализ?

Регрессионный анализ — это полезный статистический метод, который можно использовать во всей организации для определения степени, в которой отдельные независимые переменные влияют на зависимые переменные.

Возможные сценарии проведения регрессионного анализа для получения ценных практических сведений о бизнесе безграничны.

В следующий раз, когда кто-то в вашем бизнесе предложит гипотезу, которая гласит, что один фактор, независимо от того, можете ли вы контролировать этот фактор или нет, влияет на часть бизнеса, предложите выполнить регрессионный анализ, чтобы определить, насколько вы должны быть уверены в этом. эта гипотеза! Это позволит вам принимать более обоснованные бизнес-решения, более эффективно распределять ресурсы и в конечном итоге повысить вашу прибыль.


Определение регрессии

Что такое регресс?

Регрессия — это статистический метод, используемый в финансах, инвестициях и других дисциплинах, который пытается определить силу и характер связи между одной зависимой переменной (обычно обозначаемой Y) и рядом других переменных (известных как независимые переменные).

Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать взаимосвязь между переменными, такими как цены на сырьевые товары и акции предприятий, торгующих этими товарами.

Объяснение регрессии

Два основных типа регрессии — это простая линейная регрессия и множественная линейная регрессия, хотя существуют методы нелинейной регрессии для более сложных данных и анализа. Простая линейная регрессия использует одну независимую переменную для объяснения или предсказания результата зависимой переменной Y, тогда как множественная линейная регрессия использует две или более независимых переменных для предсказания результата.

Регрессия может помочь профессионалам в области финансов и инвестиций, а также специалистам в других сферах бизнеса.Регрессия также может помочь спрогнозировать продажи компании на основе погоды, предыдущих продаж, роста ВВП или других условий. Модель ценообразования капитальных активов (CAPM) — это часто используемая регрессионная модель в финансах для определения стоимости активов и определения стоимости капитала.

Общая форма каждого типа регрессии:

  • Простая линейная регрессия: Y = a + bX + u
  • Множественная линейная регрессия: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 +… + b t X t + u

Где:

  • Y = переменная, которую вы пытаетесь предсказать (зависимая переменная).
  • X = переменная, которую вы используете для прогнозирования Y (независимая переменная).
  • a = перехват.
  • b = наклон.
  • u = остаток регрессии.

Существует два основных типа регрессии: простая линейная регрессия и множественная линейная регрессия.

Регрессия берет группу случайных величин, которые, как считается, предсказывают Y, и пытается найти математическую связь между ними.Эта взаимосвязь обычно имеет форму прямой линии (линейная регрессия), которая наилучшим образом аппроксимирует все отдельные точки данных. При множественной регрессии отдельные переменные различаются с помощью индексов.

Ключевые выводы

  • Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать взаимосвязи между переменными
  • Regression может помочь профессионалам в области финансов и инвестиций, а также специалистам в других сферах бизнеса.

Реальный пример использования регрессионного анализа

Регрессия часто используется для определения того, сколько конкретных факторов, таких как цена товара, процентные ставки, конкретные отрасли или секторы, влияют на движение цены актива. Вышеупомянутый CAPM основан на регрессии и используется для прогнозирования ожидаемой доходности акций и для определения стоимости капитала. Доходность акции сравнивается с доходностью более широкого индекса, такого как S&P 500, для создания бета-версии для конкретной акции.

Бета — это риск акции по отношению к рынку или индексу и отражается как наклон в модели CAPM. Доходность рассматриваемой акции будет зависимой переменной Y, а независимая переменная X — премией за рыночный риск.

Дополнительные переменные, такие как рыночная капитализация акций, коэффициенты оценки и недавняя доходность, могут быть добавлены в модель CAPM, чтобы получить более точные оценки доходности. Эти дополнительные факторы известны как факторы Фама-Френча, названные в честь профессоров, которые разработали модель множественной линейной регрессии для лучшего объяснения доходности активов.Взаимодействие с другими людьми

Метод регрессии

— обзор

4.1 Продукты питания

В целом, методы регрессии широко применяются при использовании видимого и ближнего ИК-диапазона, становясь мощным инструментом неразрушающего прогнозирования параметров качества, особенно в сельскохозяйственных и пищевых продуктах, являясь альтернативой. к традиционным и деструктивным методам [4]. Тем не менее, большинство этих исследований проводилось в статических условиях, что является основной проблемой при разработке приложений реального времени и онлайн, в которых хемометрия имеет большое значение [27].

Что касается сельскохозяйственной продукции, большинство исследований проводилось на фруктах для прогнозирования параметров качества, представляющих интерес для потребителя, таких как содержание растворимых твердых веществ, твердость или IQI (внутренний индекс качества) [28,29] (рис. 3). ). Согласно таблице 1, несмотря на то, что существует множество работ, связанных с предсказанием содержания сахара, влажности и твердости, лишь несколько работ использовали HSI для предсказания второстепенных компонентов.

Рисунок 3. Визуализация прогноза внутреннего индекса качества (IQI) с использованием частичных наименьших квадратов и оптимальных длин волн для различных сортов нектаринов.

Извлечено из S. Munera, JM Amigo, J. Blasco, S. Cubero, P. Talens, N. Aleixos, Мониторинг спелости двух сортов нектарина с использованием визуализации гиперспектрального отражения VIS-NIR, Journal of Food Engineering 214 (2017) 29 –39. https://doi.org/10.1016/j.jfoodeng.2017.06.031. Воспроизведено с разрешения Elsevier.

Таблица 1. Обзор гиперспектральных изображений в ближнем инфракрасном диапазоне для сельскохозяйственных продуктов.

Черника 901 73 PLS30 [ Пестицианины PLS,, антоцианины PLS, антоцианин, ANN PLS, SVR, ANN 9 0185
Продукт Параметры Метод регрессии Спектральный диапазон (нм) Каталожные номера
Apple Твердость, твердость, твердость по SSC, SSC –1000
500–1000
[30]
[31]
[32]
Банан Влага, твердость, SSC MLR, PLS 400–1000 [33] [33]
Твердость, SSC PLS [34,35]
Брокколи Глюкозинолат PLS 450–900, 950–1650 Кукурузное масло , влажность MLR, PLS [37]
Виноград Кислотность, SSC PLS 400–1000 [38]
Виноградные косточки Флавонолы PLS [39]
Кукуруза Развитие грибков
Влажность
PLS
PLS
1000–2498
400–1000
[40] [40] Манго [40] Распределение влаги MLR, PLS 400–1000 [42]
Нектарины Стойкость, IQI (внутренний индекс качества) PLS 600–3176
Дыня Твердость, SSC PLS 900–1700 [43]
Ракетные листья Спелость PLS 400–800 400–800 Влажность, цвет, текстура
Влажность
ПЦР, MLR
PLS
400–1000 [45]
[46]
Перец Общий азот 380–1030 [47]
Растения риса Азот PLS 400–1000 [48]
Урожайность семян рапса3 Растворимый белок PLS
PLS
380–1030 [49]
[50]
Соя Цвет
Стресс от засухи
PLS
PLS
400–1000
420–780
3 [ ]
Листья шпината Содержание пигмента PLS 874–1734 [23]
Чайный лист Цветные соединения 53 PLS
Яблоко Обнаружение воском SVM, BP-ANN 550–1710 [54]
Банан Влага, твердость, ломкость PLS, SVM 950 –1650 [55]
Кочанная капуста Азот PLS, SMLR, ANN 410–1090 [56]
Виноград 400–1000 / 900–1700
350–1052
[57]
[58]
Персики Холодная травма ANN 900–1700 [59] [59]
Груша Сахар PLS, LS-SVM, BP-ANN 400–1000 [60]
Ядра фисташек Влага, текстура 000 PLS, ANN [61]
Каучуковые деревья Фосфор внекорневой PLS, MLR, ANN 350–2500 [62]
Чайный лист Цветовые компоненты LS-SVM 1030 [53]
Пшеница Устойчивость к фузариозу SVM 400–1000 / 1000–2500 [63]

ANN , Искусственные нейронные сети; BP-ANN , Искусственные нейронные сети обратного распространения; LS-SVM , Аппарат опорных векторов наименьших квадратов; MLR , Множественная линейная регрессия; PLS , Метод наименьших квадратов; SMLR , Пошаговая полилинейная регрессия; SSC , Растворимые твердые вещества; SVM , Машина опорных векторов.

Прогнозирование второстепенных компонентов не является обычным явлением для фруктов и овощей из-за того, что полоса воды доминирует в спектре в ближней ИК-области, и это затрудняет измерение этих второстепенных компонентов [64]. Напротив, одна из этих работ, выполненная Baiano et al. [38] получили хорошую корреляцию между pH и титруемой кислотностью винограда, несмотря на их низкую концентрацию. Следует сказать, что авторы имеют широкий диапазон обоих параметров, поскольку были проанализированы белый и красный / черный виноград, что необходимо для разработки надежных и точных моделей.

Мясная и рыбная промышленность имеет большое значение во всем мире, поэтому уже было проведено несколько работ по анализу возможности применения VIS-NIR HSI для установления адекватных параметров качества (Таблица 2). Свежесть и нежность (рис. 4) являются наиболее важными атрибутами качества для потребителей, и они тесно связаны с продажами продукта [88]; таким образом, основной целью большинства исследовательских работ было прогнозирование характеристик качества или свежести и наличия микробов в мясе [66,89].

Таблица 2. Обзор гиперспектральных изображений в ближнем инфракрасном диапазоне для других пищевых продуктов (рыбы и мяса).

[68] Филе куриной грудки Крабы 90 173 Ветчина
Продукт Параметры Регрессия Спектральный диапазон (нм) Литература
Говядина
Говядина (сушеная)
Химический состав
Количество видимых элементов (TVC) PLS
PLS
MLR
325–1100 [65]
[66]
[67]
Говядина Нежность PLS 1000–2500 Влагосодержание
Вещества, реагирующие с тибарбитуровой кислотой (TBARS), TVC, псевдомонадные нагрузки
PLS
PLS
PLS
897–1752 [69]
[27]3
Содержание съедобного мяса PLS [71]
Рыба K PLS [72]
Содержание воды, белок PLS [73]
Баранина Химический состав PLS 900–1700 [74]
Свинина Свежесть
Биогенный аминный индекс (BAI)
Общий летучий основной азот (TVB-N)
PLS
MLR
MLR
[75]
[76]
[66]
Креветки Содержание влаги MLR, PLS 380–1100 [77]
Лосось Свежесть PLS 400–1000, 897–1753 [67]
Температура ядра морепродуктов 900–2500 [78]
Индейка Влажность, цвет, pH PLS [3]
Говядина Фальсификация
Увлажнение е содержание, цвет
Влагосодержание, время хранения
LS-SVM
MLR, SVM
PLS, BP-ANN
496–1000
400–1000
320–1100
[79]
[80]
[81 ]
Цыпленок Пружинность PLS, ANN 400–1000 [82]
Белый амур K
TVB-N
LS-SVM 90 -1730 308–1105
308–1105
[72]
[83]
Свинина TVB-N pH BP-ANN
SVR
1280, 1440, 1660
400–800
[
[85]
Креветки Содержание влаги LS-SVM 380–1100 [77]
Лосось Свежесть LS-SV397– 400171 [67]
Копченый лосось TVB-N SVM 400–1000 9017 6 [86]
Tilapia TVB-N, TAC RBF-ANN 325–1098 [87]

ANN , Искусственные нейронные сети; MLR , Множественная линейная регрессия; PLS , Метод наименьших квадратов; SVM , Машина опорных векторов; SVR , Поддержка векторной регрессии.

Рис. 4. Карты распределения мягкости для длиннейшей мышцы говядины по моделям PLS-DA с использованием среднего спектра для всей области ребер глаза. SF50 и SF300b: интересующая область (RoI) — это область ребер глаза. SF300a: RoI — это основная позиция.

Недавно Yang et al. [66] измерили TVC в говядине со специями во время хранения в диапазоне длин волн 400–1000 нм в сочетании с вейвлет-преобразованием и многосторонним PLS (N-PLS). Кроме того, были измерены другие параметры для определения качества и свежести мяса, такие как содержание влаги, цвет, pH и содержание белка, а также сенсорные характеристики [3,69,73,90].

Аналогичным образом, в случае рыбных продуктов, поскольку ухудшение качества происходит быстро в течение срока службы продукта, очень важна оценка химической порчи и свежести. Инфекционная рыба была измерена с использованием визуализации VIS-NIR в различных приложениях, чтобы определить параметры, связанные с ее качеством. Параметром, используемым в качестве индекса химической порчи, является значение K, основанное на разложении нуклеотидов, которое было предсказано для белого амура и филе рыбы Cheng et al. [72]. Для разработки моделей они применили LS-SVM и MLR вместе с различными методами выбора переменных.

Поддержание качества и безопасности пищевых продуктов является требованием закона, и, поскольку свежие продукты наиболее уязвимы, большинство исследовательских работ посвящено их изучению. Однако есть также исследования, связанные с другими типами продуктов, не такими скоропортящимися, как свежие продукты, но также с высокими стандартами качества (Таблица 3). Присутствие загрязняющих веществ в пищевых продуктах, таких как меламин в сухом молоке или чистота органической муки, было глубоко изучено разными авторами [93,97].Аналогичным образом, методы HSI и линейной регрессии также использовались для оценки различных процессов посредством контроля определенных параметров, таких как общее содержание кислоты и влажность во время ферментации уксуса [95] или кислотность и вязкость масел для жарки [95]. 92].

Таблица 3. Обзор гиперспектральных изображений в ближнем инфракрасном диапазоне в других продуктах.

176176 ]1700 [ 93]
Продукт Параметры Регрессия Спектральный диапазон (нм) Литература
Яйцо α-Линоленовая, эйкозапентаоза
Масла для жарки Кислотное число, общий полярный компонент, вязкость PLS 400–1750 [92]
Сухое молоко Меламин PLS 9
Полба Чистота PLS 900–1700 [94]
Уксус Общее содержание кислоты, влажность PLS
Пшеница
Пшеничная мука
Концентрация азота в листьях
Фальсификация
Насыпная плотность
PLS
PCR
PLS 90 176
400–1000
897–1753
400–1000
[96]
[97]
[98]
Сыр Твердость PLS, ANN 400–1000 [99]
Мед Фальсификация SVM, ANN 400–1000 [100]
Морская вода Обнаружение микропластиков SVM

6
Органический углерод
Характеристики
PLS, MLR, SVM
SVM, BP-ANN
350–2500
350–3500
[102]
[103]

ANN , Искусственные нейронные сети; PCR , Регрессия главных компонентов; PLS , Метод наименьших квадратов; SVM , Машина опорных векторов.

DSS — Введение в регрессию

Home Online help Анализ Введение в регрессию

Введение

Регрессионный анализ используется, когда вы хотите спрогнозировать непрерывную зависимость переменная из ряда независимых переменных. Если зависимая переменная дихотомия, то следует использовать логистическую регрессию. (Если раскол между два уровня зависимой переменной близки к 50-50, то и логистический, и линейная регрессия даст вам аналогичные результаты.) Независимый переменные, используемые в регрессии, могут быть непрерывными или дихотомическими. Независимые переменные с более чем двумя уровнями также могут использоваться в регрессии. анализы, но сначала их нужно преобразовать в переменные, которые имеют только два уровни. Это называется фиктивным кодированием и будет рассмотрено позже. Обычно, регрессионный анализ используется с естественными переменными, в отличие от экспериментально управляемые переменные, хотя вы можете использовать регрессию с экспериментально управляемые переменные.Один момент, о котором следует помнить при регрессе Анализ заключается в том, что причинно-следственные связи между переменными не могут быть определены. Хотя терминология такова, что мы говорим, что X «предсказывает» Y, мы не можем сказать что X «вызывает» Y.

Предположения регрессии

Кол-во ящиков

При выполнении регрессии соотношение наблюдений к независимым переменным (IV) должно в идеале быть 20: 1; это 20 случаев для каждого IV в модели.Самый низкий ваш соотношение должно быть 5: 1 (т. е. 5 случаев для каждого IV в модели).

Точность данных

Если вы ввели данные (а не использовали установленный набор данных), это Хорошая идея проверить правильность ввода данных. Если вы не хотите перепроверять каждую точку данных, вы должны, по крайней мере, проверить минимальное и максимальное значение для каждой переменной, чтобы гарантировать, что все значения для каждой переменной являются «действительными». Для Например, переменная, измеряемая по шкале от 1 до 5, не должна иметь значение 8.

Отсутствуют данные

Вы также хотите найти недостающие данные. Если у конкретных переменных много отсутствующие значения, вы можете решить не включать эти переменные в свой анализ. Если только в нескольких случаях отсутствуют значения, вы можете удалить их. случаи. Если отсутствуют значения для нескольких случаев по разным переменным, то вы, вероятно, не захотите удалять эти случаи (потому что большая часть ваших данных будет потеряно).Если недостающих данных не так уж и много, и они не кажутся быть любым шаблоном с точки зрения того, чего не хватает, тогда вам действительно не нужно волноваться. Просто запустите регрессию, и все случаи, в которых нет значений для переменные, используемые в этой регрессии, не будут включены. Хотя заманчиво, сделайте не предполагать, что нет никакого рисунка; проверьте это. Для этого отделите набор данных на две группы: те случаи, когда отсутствуют значения для определенной переменной, и те, у которых отсутствует значение для этой переменной.Используя t-тесты, вы можете определить, две группы различаются по другим переменным, включенным в выборку. Например, вы можете обнаружить, что случаи, в которых отсутствуют значения переменной «зарплата» младше тех случаев, у которых есть значения для зарплаты. Вы бы хотели сделать t-тесты для каждой переменной с большим количеством пропущенных значений. Если есть систематическое различие между двумя группами (т. е. пропущенные значения группы vs. группа без пропущенных значений), то вам нужно иметь это в виду, когда интерпретировать свои выводы и не делать чрезмерных обобщений.

Изучив свои данные, вы можете решить, что хотите заменить отсутствующий значения с другим значением. Самый простой способ использовать в качестве заменяющего значения среднее значение этой переменной. Некоторые статистические программы имеют опцию внутри регрессия, где вы можете заменить отсутствующее значение средним. В качестве альтернативы вы можете заменить групповое среднее (например, среднее значение для женщины), а не общее среднее значение.

По умолчанию пакеты статистики исключают случаи, которые отсутствуют. значения для любой переменной, включенной в регрессию.(Но в этом случае может быть включен в другую регрессию, если не было пропущенных значений ни в одном из переменные, включенные в этот анализ.) Вы можете изменить этот параметр, чтобы ваш регрессионный анализ не исключает случаев, когда отсутствуют данные для каких-либо переменная включена в регрессию, но тогда у вас может быть другой номер случаев для каждой переменной.

Выбросы

Вам также необходимо проверить свои данные на наличие выбросов (т.е., экстремальное значение на конкретный элемент) Выброс часто определяется операционно как значение, которое находится на минимум на 3 стандартных отклонения выше или ниже среднего. Если вы чувствуете, что дела которые привели к выбросам, не принадлежат к той же «популяции», что и другие кейсы, то вы можете просто удалить эти кейсы. В качестве альтернативы вы можете хотите посчитать эти крайние значения «отсутствующими», но сохраните это для других переменные. В качестве альтернативы вы можете сохранить выброс, но уменьшить крайнюю степень Это.В частности, вы можете захотеть перекодировать значение, чтобы оно было самое высокое (или самое низкое) значение, не являющееся выбросом.

Нормальность

Вы также хотите проверить, нормально ли распределяются ваши данные. Для этого вы может строить гистограммы и «смотреть» на данные, чтобы увидеть их распределение. Часто гистограмма будет включать линию, которая показывает, как будет выглядеть форма, если распределение было действительно нормальным (и вы можете «поглядеть», сколько фактических распределение отклоняется от этой линии).Эта гистограмма показывает, что возраст нормально распределенные:

Вы также можете построить график нормальной вероятности. В этом сюжете актуальная оценки ранжируются и сортируются, вычисляется ожидаемое нормальное значение и по сравнению с фактическим нормальным значением для каждого случая. Ожидаемое нормальное значение положение a case с этим рангом сохраняется в нормальном распределении. Нормальный value — это позиция, которую он занимает в фактическом распределении. В принципе, вы бы хотите видеть, как ваши фактические значения выстраиваются по диагонали, идущей снизу слева направо вверх.Этот график также показывает, что возраст распределяется нормально:

Вы также можете проверить нормальность в рамках регрессионного анализа, посмотрев на сюжет о «остатках». Остатки — это разница между полученным и предсказал оценки DV. (Остатки будут объяснены более подробно позже. раздел.) Если данные распределены нормально, то остатки должны быть нормально распределяется вокруг каждого прогнозируемого балла DV. Если данные (и остатки) нормально распределены, диаграмма разброса остатков покажет большинство остатков в центре графика для каждого значения прогнозируемого счет, при этом некоторые остатки уходят симметрично от центра.Ты можешь хотите построить остаточный график, прежде чем графически отображать каждую переменную отдельно, потому что если этот график остатков выглядит хорошо, значит, вам не нужно делать отдельные графики. Ниже приведен остаточный график регрессии, где возраст пациента и время (в месяцев с момента постановки диагноза) используются для прогнозирования размера опухоли груди. Эти данные не идеально нормально распределены в том смысле, что остатки около нулевой линии кажутся немного более разбросанными, чем те, что ниже нулевой линии. Тем не менее, они действительно кажутся довольно нормально распределенными.

Помимо графического анализа данных, вы также можете статистически проверить нормальность данных. В частности, статистические программы, такие как SPSS рассчитает асимметрию и эксцесс для каждой переменной; крайнее значение для любой скажет вам, что данные обычно не распределяются. «Асимметрия» — это мера того, насколько симметричны данные; перекошенная переменная тот, чье среднее значение не находится в середине распределения (т.е., среднее и медианы совершенно разные). «Эксцесс» связан с тем, как достигло максимума распределение либо слишком пиковое, либо слишком плоское. «Экстремальные значения» асимметрии и эксцесс — это значения больше +3 или меньше -3. Если какая-либо переменная не нормально распределенный, то вы, вероятно, захотите его трансформировать (что будет обсуждается в следующем разделе). Проверка на выбросы также поможет с проблема нормальности.

Линейность

Регрессионный анализ также предполагает линейность.Линейность означает, что между IV и DV существует прямая связь. Этот предположение важно, потому что регрессионный анализ проверяет только линейный отношения между IV и DV. Любая нелинейная связь между IV и DV игнорируются. Вы можете проверить линейность между IV и DV с помощью глядя на двумерную диаграмму рассеяния (т. е. график с IV на одной оси и DV с другой). Если две переменные связаны линейно, диаграмма рассеяния будет овальной формы.

Глядя на приведенную выше двумерную диаграмму рассеяния, вы можете увидеть, что друзья линейно относящиеся к счастью. В частности, чем больше у вас друзей, тем больше у вас уровень счастья. Однако вы также можете представить, что может быть криволинейные отношения между друзьями и счастьем, такие, что счастье увеличивается с количеством друзей до точки. Однако после этого счастье уменьшается с большим количеством друзей.Это демонстрируется график ниже:

Вы также можете проверить линейность, используя описанные графики невязки. ранее. Это потому, что если IV и DV линейно связаны, то Связь между остатками и прогнозируемыми оценками DV будет линейной. Нелинейность проявляется, когда большая часть невязок находится выше нулевой линии. на графике при некоторых прогнозируемых значениях и ниже нулевой линии при других прогнозируемых значениях значения.Другими словами, общая форма сюжета будет изогнутые, а не прямоугольные. Ниже приводится график остатков, полученный, когда счастье предсказывалось по количеству друзей и возрасту. Как видите, данные не линейны:

Ниже приведен пример графика остатков, снова предсказывающий счастье от друзья и возраст. Но в этом случае данные линейны:

Если ваши данные не линейны, вы можете сделать их линейными, преобразовав IV или DV, так что между ними существует линейная зависимость.Иногда преобразование одной переменной не сработает; IV и DV просто не линейно Связанный. Если существует криволинейная связь между DV и IV, вы можете хотят разделить IV, потому что дихотомическая переменная может иметь только линейную связь с другой переменной (если она вообще связана). В качестве альтернативы, если существует криволинейная зависимость между IV и DV, тогда вам может потребоваться включить квадрат IV в регрессию (это также известна как квадратичная регрессия).

Отсутствие линейности в регрессии не так сильно сделает ваш анализ недействительным. как ослабить его; коэффициент линейной регрессии не может полностью охватить степень криволинейной связи. Если есть как криволинейный, так и линейный отношения между IV и DV, то регрессия, по крайней мере, улавливает линейная связь.

Гомоскедастичность

Предположение о гомоскедастичности состоит в том, что остатки примерно равны для всех прогнозируемых баллов DV.Другой способ думать об этом заключается в том, что вариативность оценок для ваших IV одинакова для всех значений DV. Ты можешь проверьте гомоскедастичность, посмотрев на тот же график остатков, о котором говорилось в разделы линейности и нормальности. Данные гомоскедастичны, если строятся остатки одинаковая ширина для всех значений прогнозируемого DV. Гетероскедастичность обычно отображается кластером точек, который шире, чем значения для прогнозируемые DV становятся больше. Кроме того, вы можете проверить гомоскедастичность с помощью глядя на диаграмму рассеяния между каждым IV и DV.Как и в случае с графиком остатков, вы хотите, чтобы группа точек была примерно одинаковой ширины. В Следующий график остатков показывает данные, которые довольно гомоскедастичны. На самом деле это график остатков показывает данные, которые соответствуют предположениям гомоскедастичности, линейность и нормальность (потому что остаточный график прямоугольный, с концентрация точек по центру):

Heteroscedasiticy может возникнуть, когда одни переменные искажены, а другие нет.Таким образом, проверка нормального распределения ваших данных должна сократить проблема гетероскедастичности. Подобно предположению о линейности, нарушение предположение о гомоскедастичности не так сильно отменяет вашу регрессию как ослабить его.

Мультиколлинеарность и сингулярность

Мультиколлинеарность — это состояние, при котором IV очень сильно коррелированы. (0,90 или больше), а сингулярность — это когда IV идеально коррелируют и один IV представляет собой комбинацию одного или нескольких других IV.Мультиколлинеарность и сингулярность может быть вызвана высокой двумерной корреляцией (обычно 0,90 или больше) или высокой многомерной корреляцией. Высокие двумерные корреляции легко обнаружить, просто выполнив корреляцию между вашими IV. Если у вас высокий двумерные корреляции, ваша проблема легко решается удалением одного из двух переменные, но вы должны сначала проверить свое программирование, часто это ошибка когда вы создали переменные. Труднее определить высокую многовариантность корреляции.Для этого вам нужно рассчитать SMC для каждого IV. SMC — это квадрат множественной корреляции (R2) IV, когда он служит DV, который предсказано остальными IV. Терпимость, связанная с этим концепция, рассчитывается по формуле 1-SMC. Допуск — это доля дисперсии переменной, которая не учитывается другими IV в уравнении. Вам не нужно слишком беспокоиться о допуске в том, что большинство программ не позволяют переменной входить в регрессионная модель, если толерантность слишком низкая.

Статистически вам не нужны сингулярность или мультиколлинеарность, потому что Расчет коэффициентов регрессии осуществляется путем обращения матрицы. Следовательно, если особенность существует, то инверсия невозможна, и если мультиколлинеарность существует, инверсия неустойчива. По логике, ты не хочешь мультиколлинеарность или сингулярность, потому что если они существуют, то ваши IV дублируют друг друга. В таком случае один IV не добавляет никакого прогнозирующего ценность по сравнению с другим IV, но вы теряете степень свободы.Таким образом, имея мультиколлинеарность / сингулярность могут ослабить ваш анализ. В общем, ты вероятно, не хотел бы включать два IV, которые коррелируют друг с другом на уровне 0,70. или выше.

Преобразования

Как упоминалось в разделе выше, когда одна или несколько переменных обычно не распределены, вы можете захотеть их трансформировать. Вы также можете использовать преобразования для исправления гетероскедицинности, нелинейности и выбросов. Некоторые люди не любят делать трансформации, потому что их становится труднее интерпретировать анализ.Таким образом, если ваши переменные измеряются в «значимых» единиц, таких как дни, вы можете не захотеть использовать преобразования. Если, однако, ваши данные — это просто произвольные значения на шкале, тогда преобразования не действительно затрудняют интерпретацию результатов.

Поскольку целью преобразований является нормализация ваших данных, вы хотите повторно проверьте на нормальность после того, как вы выполнили свои преобразования. Решение Какое преобразование лучше всего, часто делается методом проб и ошибок, когда вы используйте несколько преобразований и посмотрите, какое из них дает наилучшие результаты.»Лучший результаты «означает преобразование с наиболее нормальным распределением. конкретное используемое преобразование зависит от степени отклонения от нормальность. Если распределение умеренно отличается от нормального, квадратный корень трансформация часто бывает лучшим. Преобразование журнала обычно лучше всего, если данные более существенно ненормальны. Обратное преобразование должно быть пытался получить сильно ненормальные данные. Если ничего нельзя сделать для «нормализации» переменной, тогда вы можете захотеть разделить переменную (как было объяснено в участок линейности).Направление отклонения также важно. Если данные имеют отрицательный перекос, вам следует «отразить» данные, а затем применить трансформация. Чтобы отразить переменную, создайте новую переменную, в которой исходный значение переменной вычитается из константы. Константа рассчитывается добавив 1 к наибольшему значению исходной переменной.

Если вы преобразовали свои данные, вам нужно помнить об этом, когда интерпретация ваших выводов.Например, представьте, что ваша исходная переменная была измеряется в днях, но для более нормального распределения данных вам необходимо сделать обратное преобразование. Теперь нужно иметь в виду, что чем выше значение для этой преобразованной переменной, тем ниже значение исходной переменной, дней. То же самое произойдет, когда вы «отразите» переменную. Большая значение исходной переменной будет преобразовано в меньшее значение для отраженная переменная.

Простая линейная регрессия

Простая линейная регрессия — это когда вы хотите предсказать значения одной переменной, данные значения другой переменной.Например, вы можете захотеть предсказать рост человека (в дюймах) от его веса (в фунтах). Представьте себе образец из десяти люди, рост и вес которых вам известны. Вы можете нанести значения на график с весом по оси x и высотой по оси y. Если бы был идеальная линейная зависимость между ростом и весом, тогда все 10 баллов на график поместился бы на прямой. Но этого никогда не бывает (если только ваш данные сфальсифицированы). Если существует (несовершенная) линейная зависимость между высотой и вес (предположительно положительный), тогда вы получите кластер баллов на графике, который наклоняется вверх.Другими словами, люди, которые много весят, должны быть выше людей с меньшим весом. (См. График ниже.)

Цель регрессионного анализа — составить уравнение линии, которая проходит через этот кластер точек с минимальным количеством отклонений от линия. Отклонение точек от линии называется «ошибкой». Однажды ты иметь это уравнение регрессии, если бы вы знали вес человека, вы могли бы предсказать их рост.Простая линейная регрессия на самом деле то же, что и двумерная корреляция между независимой и зависимой переменной.

Стандартная множественная регрессия

Стандартная множественная регрессия — это то же самое, что и простая линейная регрессия, за исключением того, что теперь у вас есть несколько независимых переменных, предсказывающих зависимые Переменная. Чтобы продолжить предыдущий пример, представьте, что теперь вы хотите спрогнозируйте рост человека по полу и весу.Вы бы использовали стандартную множественную регрессию, в которой пол и вес были независимые переменные и рост был зависимой переменной. Результирующий вывод скажет вам несколько вещей. Во-первых, он скажет вам, сколько разница в росте учитывалась совместной предсказательной силой зная вес и пол человека. Это значение обозначается «R2». Выход также сообщит вам, позволяет ли модель предсказать рост человека на оценка лучше, чем шанс.Это обозначается уровнем значимости общая F модели. Если значение 0,05 (или меньше), то модель считается значительным. Другими словами, есть только 5 из 100 шансов (или меньше), что на самом деле нет связи между ростом и весом и Пол. По какой-то причине в социальных науках уровень значимости .05 часто считается стандартом того, что приемлемо. Если значение уровень находится между.05 и .10, то модель считается маргинальной. В другом словами, модель довольно хорошо предсказывает рост человека, но есть между 5-10% вероятностью того, что действительно нет связи между рост, вес и пол.

Стандартные множественная регрессия показывает, насколько хорошо каждая независимая переменная предсказывает зависимая переменная, контролирующая каждую из других независимых переменных.В в нашем примере регрессия покажет, насколько хорошо вес предсказал рост человека с учетом пола, а также то, насколько хорошо гендер предсказал рост человека с учетом веса.

Чтобы увидеть, был ли вес «важным» предиктором роста, вы должны посмотреть на уровень значимости, связанный с весом на распечатке. Опять же, значение уровни 0,05 или ниже будут считаться значимыми, а уровни значимости .05 и .10 будут считаться маргинальными. Как только вы определили этот вес был значимым предиктором роста, тогда вы бы хотели более внимательно изучить взаимосвязь между двумя переменными. Другими словами, это отношения положительные или отрицательные? В этом примере мы ожидаем, что там были бы положительные отношения. Другими словами, мы ожидаем, что чем больше вес человека, тем больше его рост. (Отрицательные отношения будет обозначаться случаем, в котором чем больше вес человека, тем короче его рост.) Мы можем определить направление связи между весом и рост, глядя на коэффициент регрессии, связанный с весом. Есть два вида коэффициентов регрессии: B (нестандартный) и бета. (стандартизированный). Вес B, связанный с каждой переменной, дается в терминах единицы этой переменной. Для веса единицей измерения будут фунты, а для высота, единица измерения — дюймы. В бета-версии используется стандартная единица измерения, такая же для все переменные в уравнении.В нашем примере это будет единица измерения измерение, которое будет общим для веса и роста. Бета-веса полезны потому что тогда вы можете сравнить две переменные, которые измеряются в разных единицах, как рост и вес.

Если коэффициент регрессии положительный, то имеется положительный соотношение роста и веса. Если это значение отрицательное, то есть отрицательная связь между ростом и весом. Мы можем более конкретно определить соотношение между ростом и весом, посмотрев на бета-версию коэффициент для веса.Если, например, бета = 0,35, это будет означать что при увеличении веса на одну единицу рост увеличится на 0,35 единицы. Если бета = -. 25, то при увеличении веса на одну единицу рост уменьшится на 0,25 шт. Конечно, эти отношения действительны только при наличии пола постоянный.

Аналогичная процедура будет сделана, чтобы увидеть, насколько хорошо гендер предсказывает рост. Однако, поскольку пол является дихотомической переменной, интерпретация распечатки немного отличаются.Как и в случае с весом, вы должны проверить, не пол был важным показателем роста, учитывающим вес. В разница возникает при определении точного характера взаимосвязи между пол и рост. То есть говорить о влиянии на рост по мере увеличения или уменьшения пола (пол не измеряется как непрерывная переменная). Представьте себе, что пол был кодируется как 0 или 1, где 0 = женский и 1 = мужской. Если бета-коэффициент пола был положительным, это означало бы, что самцы выше самок.Если бета-коэффициент пол были отрицательными, это означало бы, что мужчины ниже женщин. Глядя на величину бета-тестирования, вы можете более точно определить взаимосвязь между ростом и полом. Представьте себе, что бета-гендер был .25. Это означает, что самцы будут на 0,25 единицы выше самок. Наоборот, если бы коэффициент бета был -.25, это означало бы, что у мужчин было 0,25 единицы. короче самок. Конечно, эта связь будет верной только тогда, когда контроль веса.

Как уже упоминалось, уровни значимости, указанные для каждой независимой переменной указывает, является ли эта конкретная независимая переменная значимой предиктор зависимой переменной, помимо других независимых переменные. Из-за этого независимая переменная, которая является значимой предиктор зависимой переменной в простой линейной регрессии не может быть значимы при множественной регрессии (т. е. когда другие независимые переменные добавлен в уравнение).Это могло произойти из-за того, что первая доли независимой переменной с зависимой переменной могут пересекаться с дисперсия, которая распределяется между второй независимой переменной и зависимая переменная. Следовательно, первая независимая переменная больше не однозначно предсказуемым и, следовательно, не будет отображаться как значимый в множественная регрессия. Благодаря этому можно получить весьма значительный R2, но ни одна из независимых переменных не имеет значения.


На основе документа Деборы Р. Абрамс
докторант
Кафедра психологии
Большая часть этой информации была взята из Tabachnick & Fidell. (1989). Использование многомерной статистики. (2-е издание). Нью-Йорк: ХарперКоллинз


Выбор правильного типа регрессионного анализа


Регрессионный анализ математически описывает взаимосвязь между набором независимых переменных и зависимой переменной.Вы можете использовать множество типов регрессионных моделей. Этот выбор часто зависит от типа данных, которые у вас есть для зависимой переменной, и от типа модели, которая обеспечивает наилучшее соответствие. В этом посте я расскажу о наиболее распространенных типах регрессионного анализа и о том, как решить, какой из них подходит для ваших данных.

Я предоставлю обзор вместе с информацией, которая поможет вам сделать выбор. Я систематизирую типы регрессии по различным видам зависимых переменных. Если вы не уверены, какую процедуру использовать, определите, какой у вас тип зависимой переменной, а затем сконцентрируйтесь на этом разделе в этой публикации.Этот процесс должен помочь сузить выбор! Я расскажу о регрессионных моделях, которые подходят для зависимых переменных, которые измеряют непрерывные, категориальные и подсчитывающие данные.

Связанное сообщение : Руководство по типам данных и их графическому отображению

Регрессионный анализ с непрерывными зависимыми переменными

Регрессионный анализ с непрерывной зависимой переменной, вероятно, является первым типом, который приходит на ум. Хотя это основной случай, вам все равно нужно решить, какой из них использовать.

Непрерывные переменные — это измерения на непрерывной шкале, такие как вес, время и длина.

Линейная регрессия

OLS создает подобранную линию, которая минимизирует сумму квадратов разностей между точками данных и линией.

Линейная регрессия, также известная как метод наименьших квадратов (МНК) и линейный метод наименьших квадратов, является настоящей рабочей лошадкой в ​​мире регрессии. Используйте линейную регрессию, чтобы понять среднее изменение зависимой переменной при изменении на одну единицу каждой независимой переменной.Вы также можете использовать полиномы для моделирования кривизны и включения эффектов взаимодействия. Несмотря на термин «линейная модель», этот тип может моделировать кривизну.

Этот анализ оценивает параметры, минимизируя сумму квадратов ошибок (SSE). Линейные модели являются наиболее распространенными и простыми в использовании. Если у вас есть непрерывная зависимая переменная, вам, вероятно, следует рассмотреть линейную регрессию.

Для линейной регрессии доступны несколько специальных опций.

  • Линейная модель, использующая полином для моделирования кривизны

    Построенные линейные графики : Если у вас есть одна независимая переменная и зависимая переменная, используйте подогнанный линейный график, чтобы отобразить данные вместе с подогнанной линией регрессии и существенным выходом регрессии. Эти графики делают понимание модели более интуитивным.

  • Пошаговая регрессия и регрессия лучших подмножеств : Эти автоматизированные методы могут помочь идентифицировать переменные-кандидаты на ранних этапах процесса спецификации модели.

Расширенные типы линейной регрессии

Линейные модели — самый старый тип регрессии. Он был разработан таким образом, чтобы статистики могли производить расчеты вручную. Однако у OLS есть несколько недостатков, включая чувствительность как к выбросам, так и к мультиколлинеарности, и он склонен к переобучению. Для решения этих проблем статистики разработали несколько продвинутых вариантов:

  • Регрессия гребня позволяет анализировать данные даже при наличии сильной мультиколлинеарности и помогает предотвратить переобучение.Этот тип модели уменьшает большую проблемную дисперсию, вызываемую мультиколлинеарностью, путем внесения небольшого смещения в оценки. В этой процедуре большая часть дисперсии обходится в обмен на небольшое смещение, что дает более полезные оценки коэффициентов при наличии мультиколлинеарности.
  • Регрессия лассо (оператор наименьшего абсолютного сжатия и выбора) выполняет выбор переменной, которая направлена ​​на повышение точности прогноза путем определения более простой модели. Это похоже на регрессию Риджа, но с выбором переменных.
  • Регрессия частичных наименьших квадратов (PLS) полезна, когда у вас очень мало наблюдений по сравнению с количеством независимых переменных или когда ваши независимые переменные сильно коррелированы. PLS уменьшает независимые переменные до меньшего количества некоррелированных компонентов, аналогично анализу главных компонентов. Затем процедура выполняет линейную регрессию для этих компонентов, а не для исходных данных. PLS делает упор на разработке прогностических моделей и не используется для проверки переменных.В отличие от OLS, вы можете включить несколько непрерывных зависимых переменных . PLS использует структуру корреляции для выявления меньших эффектов и моделирования многомерных паттернов в зависимых переменных.

Нелинейная регрессия

Для нелинейной регрессии также требуется непрерывная зависимая переменная, но она обеспечивает большую гибкость при подборе кривых, чем линейная регрессия.

Как и OLS, нелинейная регрессия оценивает параметры путем минимизации SSE. Однако в нелинейных моделях используется итерационный алгоритм, а не линейный подход к их прямому решению с помощью матричных уравнений.Для вас это означает, что вам нужно беспокоиться о том, какой алгоритм использовать, указав хорошие начальные значения и возможность либо не сойтись в решении, либо сойтись на локальном минимуме, а не на глобальном минимуме SSE. И это в дополнение к указанию правильной функциональной формы!

Нелинейная модель подвижности электронов по плотности.

Большинство нелинейных моделей имеют одну непрерывную независимую переменную, но возможно и более одной. Если у вас есть одна независимая переменная, вы можете построить график результатов, используя построенный линейный график.

Мой совет — сначала подогнать модель с использованием линейной регрессии, а затем определить, обеспечивает ли линейная модель адекватное соответствие, проверив графики остатков. Если вы не можете получить хорошее соответствие с помощью линейной регрессии, попробуйте нелинейную модель, потому что она может соответствовать большему количеству кривых. Я всегда рекомендую вам сначала попробовать OLS, потому что его легче выполнять и интерпретировать.

Я довольно много писал о различиях между линейными и нелинейными моделями. Прочтите следующие сообщения, чтобы узнать о различиях между этими двумя типами, о том, как выбрать, какой из них лучше всего подходит для ваших данных, и как интерпретировать результаты.

Регрессионный анализ с категориальными зависимыми переменными

До сих пор мы рассматривали модели, для которых требуется непрерывная зависимая переменная. Далее перейдем к категориальным независимым переменным. Категориальная переменная имеет значения, которые можно поместить в счетное число отдельных групп на основе характеристики. Логистическая регрессия преобразует зависимую переменную, а затем использует оценку максимального правдоподобия, а не метод наименьших квадратов, для оценки параметров.

Логистическая регрессия описывает взаимосвязь между набором независимых переменных и категориальной зависимой переменной.Выберите тип логистической модели в зависимости от типа имеющейся у вас категориальной зависимой переменной.

Двоичная логистическая регрессия

Используйте двоичную логистическую регрессию, чтобы понять, как изменения независимых переменных связаны с изменениями вероятности возникновения события. Для этого типа модели требуется двоичная зависимая переменная. У двоичной переменной есть только два возможных значения, например, пройден и не пройден.

Пример: Политологи оценивают шансы действующего президента У.S. Победа президента на переизбрании на основе результатов фондового рынка.

Прочтите мой пост о бинарной логистической модели, которая оценивает вероятность принадлежности республиканцев Палаты представителей к фракции свободы.

Порядковая логистическая регрессия

Порядковая логистическая регрессия моделирует взаимосвязь между набором предикторов и порядковой переменной отклика. Порядковый ответ включает по крайней мере три группы, которые имеют естественный порядок, например горячие, средние и холодные.

Пример: Аналитики рынка хотят определить, какие переменные влияют на решение купить большой, средний или маленький попкорн в кинотеатре.

Номинальная логистическая регрессия

Номинальная логистическая регрессия, также известная как полиномиальная логистическая регрессия, моделирует взаимосвязь между набором независимых переменных и номинальной зависимой переменной. Номинальная переменная имеет как минимум три группы, которые не имеют естественного порядка, такие как царапина, вмятина и разрыв.

Пример : Аналитик по качеству изучает переменные, которые влияют на вероятность дефектов продукта: царапины, вмятины и разрывы.

Регрессионный анализ с переменными, зависящими от количества

Если ваша зависимая переменная — это количество элементов, событий, результатов или действий, вам может потребоваться использовать другой тип регрессионной модели. Счетчики — это неотрицательные целые числа (0, 1, 2 и т. Д.). Данные подсчета с более высокими средними обычно распределяются нормально, и вы часто можете использовать OLS. Однако данные подсчета с меньшими средними значениями могут быть искажены, и линейная регрессия может с трудом подобрать эти данные. В этих случаях вы можете использовать несколько типов моделей.

Регрессия Пуассона

Данные подсчета часто следуют распределению Пуассона, что делает регрессию Пуассона хорошей возможностью. Переменные Пуассона — это подсчет чего-либо за постоянный период времени, площади или другой постоянной продолжительности наблюдения. С помощью переменной Пуассона вы можете рассчитать и оценить частоту появления. Классический пример набора данных Пуассона представлен Ладиславом Борткевичем, российским экономистом, который проанализировал ежегодную смертность, вызванную ударами лошадей в прусской армии с 1875 по 1984 год.

Используйте регрессию Пуассона для моделирования того, как изменения в независимых переменных связаны с изменениями в подсчетах. Модели Пуассона похожи на логистические модели, поскольку они используют оценку максимального правдоподобия и преобразуют зависимую переменную с использованием натурального логарифма. Модели Пуассона могут подходить для данных о частоте, где частота — это количество событий, деленное на меру воздействия этой единицы (согласованная единица наблюдения). Например, убийства в месяц.

Пример : Аналитик использует регрессию Пуассона для моделирования количества вызовов, которые центр обработки вызовов получает ежедневно.

Альтернативы регрессии Пуассона для данных счета

Не все данные подсчета соответствуют распределению Пуассона, поскольку это распределение имеет некоторые строгие ограничения. К счастью, есть альтернативные анализы, которые вы можете выполнить, когда у вас есть данные подсчета.

Отрицательная биномиальная регрессия : регрессия Пуассона предполагает, что дисперсия равна среднему значению. Когда дисперсия больше среднего, ваша модель имеет избыточную дисперсию. Отрицательная биномиальная модель, также известная как NB2, может быть более подходящей, когда присутствует избыточная дисперсия.

Модели с нулевым накачиванием : Ваши данные счета могут иметь слишком много нулей, чтобы соответствовать распределению Пуассона. Другими словами, нулей больше, чем предсказывает регрессия Пуассона. Модели с нулевым надуванием предполагают, что два отдельных процесса работают вместе, чтобы произвести избыточные нули. Один процесс определяет, есть ли ноль событий или больше нуля событий. Другой — процесс Пуассона, который определяет, сколько событий происходит, некоторые из которых могут быть нулевыми. Пример проясняет это!

Предположим, смотрители парка подсчитывают количество рыбы, пойманной каждым посетителем парка при выходе из парка.Модель с нулевым надувом может быть подходящей для этого сценария, потому что есть два процесса ловли нулевой рыбы:
  • Некоторые посетители парка не ловят рыбу, потому что не рыбачили.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *