Расшифровка взаимодействий в логистической регрессии

Расшифровка взаимодействий в логистической регрессии. Показано, что отношения шансов на самом деле являются отношениями отношений. Вычисление отношения шансов на основе вероятности вычисления коэффициента логистической регрессии

Показывает, что отношения шансов на самом деле являются отношениями отношений.

Вычисление отношения шансов на основе коэффициента логистической регрессии

Вычисление вероятности из коэффициентов логистической регрессии

Где Xb- линейный предсказатель.

О логистической регрессии

Логистическая регрессия соответствует модели логита максимального правдоподобия. Модель оценивает условные средние в терминах логитов (логарифмических шансов). Логит-модель - это линейная модель в метрике логарифмических шансов. Результаты логистической регрессии могут отображаться как отношения шансов или как вероятности. Вероятности - это нелинейное преобразование результатов логарифма шансов.

В целом линейные модели имеют ряд преимуществ по сравнению с нелинейными моделями, и с ними легче работать. Например, в линейных моделях наклоны и / или различия средних значений не изменяются для различных значений ковариаты. Это не обязательно так для нелинейных моделей. Проблема логистической регрессии заключается в том, что, хотя модель линейна по логарифмическим шансам, многие исследователи считают, что логарифмические шансы не являются естественной метрикой и их нелегко интерпретировать.

Вероятность - гораздо более естественная метрика. Однако при работе с вероятностной метрикой логит-модель не является линейной. Таким образом, прогнозируемые вероятности изменяются по мере изменения значений ковариации. Фактически, предполагаемые вероятности зависят от всех переменных в модели, а не только от переменных взаимодействия.

Так что же такое линейная модель? Линейная модель линейна по бета-версиям (коэффициентам). В более широком смысле, нелинейная модель должна быть нелинейной в бета-версиях. Ниже приведены три примера линейных и нелинейных моделей.

Во-первых, это пример линейной модели и ее графика.

Далее у нас есть пример нелинейной модели и ее графика. В данном случае это модель экспоненциального роста.

Наконец, у нас есть еще одна нелинейная модель. Это показывает нелинейное преобразование логарифмических шансов в вероятности.

Преобразования логистической регрессии

Это попытка показать различные типы преобразований, которые могут происходить с моделями логистической регрессии.

Логистические взаимодействия - сложное понятие

Здравый смысл подсказывает, что взаимодействие предполагает изучение различий в различиях. Если различия не отличаются, то взаимодействия нет. Но в логистической регрессии взаимодействие - более сложное понятие. Исследователям необходимо решить, как концептуализировать взаимодействие. Следует ли концептуализировать взаимодействие в терминах логарифма шансов (логитов), отношения шансов или вероятности? Это решение может иметь большое значение. Взаимодействие, которое является значимым в логарифмических шансах, может быть незначительным с точки зрения разницы в различиях вероятностей. Или наоборот.

Модель 1: категориальное за категориальным взаимодействием

Метрика логарифмических шансов - категориальное по категориальному взаимодействию

Переменные fи hявляются бинарными предикторами, а cv1- непрерывной ковариатой. Опция nologподавляет отображение журнала итераций; здесь он используется просто для минимизации количества вывода.

Срок взаимодействия явно важен. Мы могли вручную вычислить ожидаемые логиты для каждой из четырех ячеек модели.

Мы также можем использовать модель средних значений ячеек для получения ожидаемых логитов для каждой ячейки, когда cv1= 0. Noconsопция используется опускаем постоянный член. Поскольку константа не учитывается в расчетах, рассчитывается коэффициент для контрольной группы.

А вот как выглядят ожидаемые логиты в таблице 2 × 2.

h = 0 h = 1
f = 0 -11,86075 -9,469835
f = 1 -8,8646295 -8,521473

Мы рассмотрим различия между h0и h1на каждом уровне f(простые основные эффекты), а также разницу в различиях.

Разница 1 предполагает, что h0значительно отличается от h1при f= 0, тогда как разница 2 не показывает существенной разницы при f= 1. Это тесты простых основных эффектов, как и в случае регрессии методом наименьших квадратов (OLS). Мы закончим этот раздел, рассмотрев разницу в различиях.

Разница в различиях - это, конечно, просто другое название взаимодействия. Для модели логарифма шансов различия и разница в различиях одинаковы, независимо от значения ковариаты. Это постоянство при разных значениях ковариаты - одно из свойств линейных моделей.

Показатель отношения шансов - категориальный за категориальным взаимодействием

Давайте посмотрим на таблицу коэффициентов логистической регрессии вместе с экспоненциальными коэффициентами, которые некоторые люди называют отношениями шансов.

Многие называют все возведенные в степень логистические коэффициенты отношениями шансов. Но, как вы можете видеть из приведенной выше таблицы, возведение в степень взаимодействия - это отношение соотношений, а возведенная в степень константа - это базовые шансы.

Мы можем вычислить отношения шансов вручную для каждого из двух уровней fиз значений в таблице выше.

Обратите внимание, что вычисление отношения шансов для f= 1 включает в себя умножение коэффициентов для модели отношения шансов, приведенной выше, что подразумевает, что модели отношения шансов являются мультипликативными, а не аддитивными.

В базовыекоэффициенты при CV1= ноль очень мал (7.06e-06) так , для оставшейся части вычислений мы будем оценивать шансы, удерживая CV1на 50. Опция noatlegendподавляет отображение легенды.

Выражениеопциона (exp (xb ()))гарантирует, что мы смотрим на результаты в метрике отношения шансов. В базовыекоэффициенты теперь .1304264 , который является разумным. Мы вычислим отношение шансов для каждого уровня f.

Таким образом, когда f= 0, вероятность того, что исход будет единичным, будет в 10,92 раза больше для h1,чем для h0. При f= 1 соотношение двух коэффициентов составляет всего 1,41. Эти отношения шансов такие же, как мы вычисляли вручную ранее.

Мы также можем вычислить отношение шансов и показать, что оно воспроизводит оценку взаимодействия.

Единственная приятная вещь, которую мы можем сказать о работе с метрикой отношения шансов, - это то, что отношение шансов остается неизменным независимо от того, где мы держим ковариантную константу.

Метрика вероятности - категориальное за категориальным взаимодействием

Мы начнем с повторного запуска нашей модели логистической регрессии, чтобы освежить воспоминания о коэффициентах.

Давайте вручную вычислим вероятность того, что результат будет единичным дляячейки f= 0, h= 0, когда cv1удерживается на уровне 50.

Мы могли бы повторить это для каждой из трех других ячеек, но вместо этого мы получим ожидаемые вероятности для каждой ячейки, удерживая ковариату на уровне 50, используя команду margins.

Вот те же результаты, отображаемые в виде таблицы.

h = 0 h = 1
f = 0 .115378 .5875788
f = 1 .7229559 .7862264

Мы хотели бы посмотреть на различия в hдля каждого уровня f.

Мы также можем сделать это с небольшим изменением команды marginsи получить оценки различий в вероятности вместе со стандартными ошибками и доверительными интервалами.

Эти два различия являются вероятностными аналогами простых основных эффектов модели логарифмических шансов. Таким образом, когда ковариата поддерживается на уровне 50, существует значительная разница в hпри f= 0, но не при f= 1.

Затем мы будем использовать lincomдля вычисления разницы в различиях, когда cv1удерживается на уровне 50.

Здесь p-значение отличается от p-значения из исходной логит-модели, потому что в метрике вероятности значения ковариантного значения имеют значение.

Если мы повторим описанный выше процесс для значений cv1от 20 до 70, мы сможем создать таблицу простых основных эффектов и график разницы в различиях.

Ясно, что значение ковариаты имеет огромное значение в зависимости от того, являются ли простые основные эффекты или взаимодействия статистически значимыми при работе с метрикой вероятности.

Модель 1а: категоризация по категориальному взаимодействию?

Но подождите, а что, если модель не содержит члена взаимодействия? Рассмотрим следующую модель.

Мы вручную вычислим ожидаемые логарифмические шансы для каждой из четырех ячеек модели.

Далее мы вычислим различия для f= 0 и f= 1.

Они идентичны с точностью до ошибки округления, показывая, что в модели логарифмических шансов нет эффекта взаимодействия.

Затем мы вычислим ожидаемые вероятности для cv1,удерживаемого на уровне 50, вместе с разницей в различиях.

Разница в отличиях не очень большая. Давайте попробуем снова, на этот раз удерживая cv1на 60.

На этот раз разница в различиях намного больше. Сделаем график, подобный тому, который мы сделали для модели с включенным взаимодействием.

Мы видим, что даже без члена взаимодействия в модели различия в различиях (взаимодействиях?) Могут широко варьироваться от отрицательных до положительных в зависимости от значения ковариаты.

Это приводит нас к «Цитате дня».

Цитата дня

Отклонения от аддитивности подразумевают наличие типов взаимодействия, но аддитивность неозначает отсутствие типов взаимодействия.

Гренландия и Ротман, 1998 г.

Модель 2: категоризация благодаря непрерывному взаимодействию

Метрика логарифмических шансов - категоризация по непрерывному взаимодействию

Набор данных для категориального путем непрерывного взаимодействия имеет один бинарный предиктор ( f), один непрерывный предиктор ( и) и непрерывную ковариату ( cv1). Давайте посмотрим на модель логистической регрессии.

Член взаимодействия является значимым, указывая на то, что наклон yна sзначительно различается для каждого уровня f. Мы можем вычислить уклоны и пересечения вручную, как показано ниже.

Вот наши два уравнения логистической регрессии в метрике логарифмических шансов.

Теперь мы можем построить график этих двух линий регрессии, чтобы понять, что происходит.

Поскольку модель логистической регрессии линейна по логарифмическим шансам, прогнозируемые наклоны не меняются при различных значениях ковариаты.

Метрика вероятности - категоричность при непрерывном взаимодействии

Мы начнем с повторного запуска модели логистической регрессии.

Если бы мы были так склонны, мы могли бы вычислить все интересующие вероятности, используя основную формулу вероятности.

Вот пример вычисления вероятности, когда f = 0, s = 60, f # s = 0 и cv1 = 40.

Теперь мы будем использовать f = 1, s = 60, f # s = 60 и cv1 = 40.

Мы также можем вычислить разницу в вероятностях.

Если мы будем использовать что - то вроде STATA по рентабельностикоманды, мы можем получить предсказаны вероятности наряду со стандартными ошибками и доверительных интервалов. Вот пример прогнозирования вероятности при s= 20 и cv1= 40.

Теперь можно повторить это для различных значений sот 20 до 70, создав таблицу ниже.

Мы повторим это удержание cv1на 50, а затем на 60. Затем мы построимграфик вероятностей для каждого из трех значений cv1.

Вместо того, чтобы смотреть на отдельные значения для f0и f1, мы могли бы вычислить разницу в вероятностях. Вот пример использования полейс опцией dydx.

Хорошо, давайте повторим это для разных значений s, создав таблицу ниже.

Затем нам нужно повторить процесс, удерживая cv1на 50, а затем на 60. Затем мы можем нанести разницу в вероятностях для трех значений cv1на один график.

Страница часто задаваемых вопросов по Stata, как я могу понять категориальное при непрерывном взаимодействии в логистической регрессии? показывает альтернативный метод построения графика этой разницы в линиях вероятности с включением доверительных интервалов. Вот графики со страницы часто задаваемых вопросов.

Модель 3: Непрерывное за счет непрерывного взаимодействия

Метрика логарифма шансов - непрерывное за непрерывным взаимодействием

На этот раз у нас есть набор данных, в котором есть два непрерывных предиктора ( r& m) и непрерывная ковариата ( cv1).

Уловка интерпретации непрерывных взаимодействий за счет непрерывных взаимодействий состоит в том, чтобы зафиксировать один предиктор на заданном значении и изменить другой предиктор. Еще раз, поскольку логарифмическая модель шансов является линейной, на самом деле не имеет значения, на каком значении находится ковариата; уклоны не меняются. Для удобства оставим cv1равным нулю.

Вот пример ручного вычисления крутизны r,удерживая mравным 30.

Вот то же вычисление с использованием Stata.

В таблице ниже показан наклон для rдля различных значений mот 30 до 70. Поскольку это линейная модель, нам не нужно удерживать cv1на каком-либо конкретном значении.

Мы произвольно выбрали изменение mи посмотрели на наклон r,но мы могли легко поменять местами переменные. Надеюсь, ваше знание теории, лежащей в основе модели, наряду с существенными знаниями подскажет, какой переменной следует манипулировать.

Ниже представлен график уклонов из таблицы выше.

На этот раз мы перейдем непосредственно к интерпретации вероятностей, минуя метрику отношения шансов.

Метрика вероятности - непрерывное за счет непрерывного взаимодействия

Мы перезапустим нашу модель.

Затем мы рассчитаем значения ковариаты для среднего минус одно стандартное отклонение, среднего и среднего плюс одно стандартное отклонение.

Вот пример вычисления наклона rв метрике вероятности для m= 30, удерживающего cv1 равнымего среднему значению минус 1 SD (41,669207).

Теперь мы вычислим наклондля rдля различных значений mдля каждого из трех значений cv1.