зачем логарифмировать данные для регрессии

В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?

Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?

Я всегда стесняюсь заходить в цепочку с таким большим количеством превосходных ответов, как это, но мне кажется, что лишь немногие из ответов дают какую-либо причину предпочесть логарифм другим преобразованиям, которые «сдавливают» данные, такие как корень или ответ.

Прежде чем перейти к этому, давайте подведем итоги мудрости в существующих ответах в более общем виде. Некоторое нелинейное повторное выражение зависимой переменной указывается, когда применимо любое из следующего:

Остатки имеют перекошенное распределение. Целью преобразования является получение остатков, которые приблизительно симметрично распределены (конечно, около нуля).

Разброс остатков систематически изменяется со значениями зависимой переменной («гетероскедастичность»). Цель трансформации состоит в том, чтобы устранить это систематическое изменение в распространении, достигнув приблизительной «гомоскедастичности».

Чтобы линеаризовать отношения.

Когда научная теория указывает. Например, химия часто предлагает выражать концентрации в виде логарифмов (давая активность или даже общеизвестный pH).

Когда более туманная статистическая теория предлагает, остатки отражают «случайные ошибки», которые не накапливаются аддитивно.

Упростить модель. Например, иногда логарифм может упростить количество и сложность терминов «взаимодействие».

(Эти признаки могут противоречить друг другу; в таких случаях требуется суждение.)

Итак, когда конкретно указывается логарифм вместо какого-либо другого преобразования?

Остатки имеют «сильно» положительно перекошенное распределение. В своей книге об EDA Джон Тьюки предоставляет количественные способы оценки трансформации (в пределах семейства Бокса-Кокса, или силовых трансформаций) на основе ранговых статистик невязок. Это действительно сводится к тому факту, что если взятие логарифма симметрирует остатки, это, вероятно, была правильная форма повторного выражения; в противном случае необходимо другое выражение.

Когда SD остатков прямо пропорционально установленным значениям (а не какой-то степени установленных значений).

Когда отношения близки к экспоненциальным.

Когда считается, что остатки отражают мультипликативно накапливающиеся ошибки.

Вы действительно хотите модель, в которой предельные изменения в объясняющих переменных интерпретируются как мультипликативные (процентные) изменения в зависимой переменной.

И, наконец, некоторые не- причины использовать повторное выражение :

Потому что программное обеспечение автоматически сделало это. (Достаточно сказано!)

Потому что все данные положительные. (Позитивность часто подразумевает положительную асимметрию, но это не обязательно. Более того, другие преобразования могут работать лучше. Например, корень часто лучше всего работает с подсчитанными данными.)

Чтобы «плохие» данные (возможно, низкого качества) выглядели хорошо.

Я всегда говорю студентам, что есть три причины для преобразования переменной, взяв натуральный логарифм. Причина регистрации переменной будет определять, хотите ли вы зарегистрировать независимую переменную (переменные), зависимую или обе. Чтобы было ясно, я говорю о натуральном логарифме.

Во-первых, для улучшения подгонки модели, как отмечали другие постеры. Например, если ваши остатки обычно не распределяются, то взятие логарифма перекошенной переменной может улучшить подгонку, изменив масштаб и сделав переменную более «нормально» распределенной. Например, доход усекается до нуля и часто демонстрирует положительный перекос. Если переменная имеет отрицательный перекос, вы можете сначала инвертировать переменную, прежде чем брать логарифм. Я имею в виду, в частности, шкалы Лайкерта, которые вводятся как непрерывные переменные. Хотя это обычно относится к зависимой переменной, иногда возникают проблемы с остатками (например, гетероскедастичностью), вызванными независимой переменной, которые иногда можно исправить, взяв логарифм этой переменной. Например, при запуске модели, объясняющей оценки лектора на наборе лектора и класса, переменная «размер класса» (т. Е. Количество студентов в лекции) имела выбросы, которые вызывали гетероскедастичность, потому что дисперсия в оценках лектора была меньше в большем когорты, чем меньшие когорты. Регистрация переменной студента может помочь, хотя в этом примере либо расчет робастных стандартных ошибок, либо использование взвешенных наименьших квадратов может облегчить интерпретацию.

И, наконец, может быть теоретическая причина для этого. Например, некоторые модели, которые мы хотели бы оценить, являются мультипликативными и, следовательно, нелинейными. Взятие логарифмов позволяет оценивать эти модели с помощью линейной регрессии. Хорошие примеры этого включают производственную функцию Кобба-Дугласа в экономике и уравнение Минцера в образовании. Производственная функция Кобба-Дугласа объясняет, как входы преобразуются в выходы:

Принятие логарифмов этого упрощает оценку функции с использованием линейной регрессии OLS как таковой:

Источник

Русские Блоги

Логарифмический регрессионный алгоритм

Логарифмический регрессионный алгоритм

Логарифмический регрессионный алгоритм

1. Связь и различие между логистической регрессией и линейной регрессией

Классификация и регрессия: регрессионная модель предназначена для прогнозирования непрерывной переменной (например, количества осадков, цены и т. Д.). В задаче классификации предсказать вероятность принадлежности к определенной категории,
можно рассматривать как проблему регрессии. Можно сказать, что это метод классификации, использующий алгоритм регрессии.

Выход:
Непросто напрямую использовать выходные данные линейной регрессии в качестве вероятности, поскольку ее значение может быть меньше 0 или больше 1, что не соответствует фактической ситуации. Выходные данные логистической регрессии точно [ 0,1] интервал.

Метод оценки параметров: линейная регрессия использует функцию минимизации квадратичной потери ошибки, и штрафы являются более суровыми для данных, которые отклоняются от истинного значения. Как это-
В чем проблема? Если для прогнозирования проблемы двоичной классификации <0,1>используется линейная регрессия, то выборка с истинным значением 1 и прогнозируемым значением 50 будет иметь большие штрафы, что не соответствует реальной ситуации. Чем больше прогнозируемое значение, тем больше вероятность того, что оно равно 1, и тем более серьезным оно не должно наказываться.
Логистическая регрессия использует функцию логарифмического правдоподобия для оценки параметров и кросс-энтропию в качестве функции потерь. Наказанием за ошибки прогнозирования является то, что при увеличении выходного сигнала оно постепенно приближается к константе, которая равна Там нет такой проблемы 1
Именно из-за различных методов оценки параметров модели линейной регрессии более восприимчивы к выбросам (выбросам) и могут нуждаться в постоянном изменении порога (порога).

Объяснение параметров: В линейной регрессии объяснение коэффициентов независимых переменных очень ясно, то есть, когда другие переменные остаются неизменными, величина изменения зависимой переменной одной переменной изменяется.
В логистической регрессии интерпретация коэффициентов независимых переменных зависит от ситуации, в зависимости от выбранного распределения вероятностей, такого как биномиальное распределение, распределение Пуассона и т. д.

2. Принцип логистической регрессии

Логистическая регрессия также известна как логарифмическая регрессия. Хотя название алгоритма называется логистической регрессией, алгоритм является алгоритмом классификации. Лично это связано с тем, что логистическая регрессия использует метод, аналогичный регрессии, для решения проблемы классификации.

зачем логарифмировать данные для регрессии. a79b05087a50c0c5b4541a19f47e3831. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-a79b05087a50c0c5b4541a19f47e3831. картинка зачем логарифмировать данные для регрессии. картинка a79b05087a50c0c5b4541a19f47e3831.
После того, как функция Sigmoid доступна, диапазон значений составляет [0,1]. Его можно рассматривать как апостериорную оценку вероятности p (y = 1 | X) p (y = 1 | X) класса 1. Проще говоря, если есть контрольная точка x, то результат, рассчитанный функцией Сигмоида, может использоваться как вероятность того, что точка x принадлежит категории 1.

Поэтому вполне естественно, что мы классифицируем значение, рассчитанное функцией Сигмоида, как большее или равное 0,5 для категории 1 и меньше 0,5 для категории 0:

3. Вывод и оптимизация функции логистической регрессии потерь

Ссылочный адрес
Гипотетическая функция
зачем логарифмировать данные для регрессии. 91ded84b023ef94c52a540edfc605aa2. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-91ded84b023ef94c52a540edfc605aa2. картинка зачем логарифмировать данные для регрессии. картинка 91ded84b023ef94c52a540edfc605aa2.
используется для двоичной классификации
зачем логарифмировать данные для регрессии. 1c4b81f3ab84518b88940a2e3d46d2e7. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-1c4b81f3ab84518b88940a2e3d46d2e7. картинка зачем логарифмировать данные для регрессии. картинка 1c4b81f3ab84518b88940a2e3d46d2e7.

Сводка: если мы берем логарифмы и отрицательные значения, он может представлять соответствующую функцию стоимости. Направление, противоположное функции правдоподобия. (Журнал хорош только для расчета).
зачем логарифмировать данные для регрессии. 06c2a48c7facd29ed50100b46099fab5. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-06c2a48c7facd29ed50100b46099fab5. картинка зачем логарифмировать данные для регрессии. картинка 06c2a48c7facd29ed50100b46099fab5.

Единая формула
Найдем формулу совместной вероятности:
зачем логарифмировать данные для регрессии. 89994be57d0721c903711ce2e7cfff6e. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-89994be57d0721c903711ce2e7cfff6e. картинка зачем логарифмировать данные для регрессии. картинка 89994be57d0721c903711ce2e7cfff6e.

Формула итерации параметра
зачем логарифмировать данные для регрессии. 51ce3b93e046e6f49bd565773710c104. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-51ce3b93e046e6f49bd565773710c104. картинка зачем логарифмировать данные для регрессии. картинка 51ce3b93e046e6f49bd565773710c104.
Объяснение:

резюме
Для общей модели обучения есть три важных шага:

4. Регуляризация и модели оценки показателей

регуляризациязачем логарифмировать данные для регрессии. 4330619bbcbda9e5c789e08d39d4874e. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-4330619bbcbda9e5c789e08d39d4874e. картинка зачем логарифмировать данные для регрессии. картинка 4330619bbcbda9e5c789e08d39d4874e.
Оценочный индекс
зачем логарифмировать данные для регрессии. b11c5406ba1e4e0eabd63f71c07a0091. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-b11c5406ba1e4e0eabd63f71c07a0091. картинка зачем логарифмировать данные для регрессии. картинка b11c5406ba1e4e0eabd63f71c07a0091.

5. Преимущества и недостатки логистической регрессии

Как и в случае линейной регрессии, при удалении атрибутов, которые не связаны с выходной переменной, и атрибутов с высоким сходством, логистическая регрессия действительно будет работать лучше. Поэтому обработка признаков играет важную роль в производительности логистической и линейной регрессии.

Еще одним преимуществом логистической регрессии является то, что она очень проста в реализации и очень эффективна для обучения. В исследованиях я обычно использую модель логистической регрессии в качестве эталона, а затем пытаюсь использовать более сложные алгоритмы.

Благодаря своей простоте и быстрой реализации, логистическая регрессия также является хорошим эталоном, и вы можете использовать ее для измерения производительности других более сложных алгоритмов.

Одним из его недостатков является то, что мы не можем использовать логистическую регрессию для решения нелинейных задач, потому что ее поверхность решения является линейной.
Логистическая регрессия не является одним из самых мощных алгоритмов, ее можно легко превзойти с помощью более сложных алгоритмов. Другим недостатком является то, что он сильно зависит от правильного представления данных.

Это означает, что логистическая регрессия не будет полезным инструментом, пока вы не определили все важные независимые переменные. Поскольку результаты являются дискретными, логистическая регрессия может только предсказать результаты классификации. Это также известно его легким переоснащением.

6. Решение проблемы пробного дисбаланса

1. Искусственно преобразовать образец в сбалансированные данные.
Повышение частоты дискретизации: повторно сэмплируйте деталь с небольшим размером выборки, основываясь на размере выборки на стороне с большим объемом данных, сгенерируйте размер выборки класса с меньшим размером выборки и стороны с большим размером выборки то же самое.

Уменьшение выборки: уменьшите деталь с большим размером выборки, исходя из размера выборки стороны с наименьшим количеством данных.

Или используйте «сбалансированный» режим, внутренний принцип sklearn: непосредственно используйте n_samples / (n_classes * np.bincount (y)), то есть общее количество выборок / (количество категорий * частота появления y0) в качестве веса, что может лучше исправить наши выборки. Сбалансированная ситуация.

(B) Используйте параметр класса SVC class_weigh и sample_weight, которые можно установить в соответствии с интерфейсом в SVM:
Параметр класса SVC class_weigh:

Для class_weight введите словарь в форме <"значение метки 1": вес 1, "значение метки 2": вес 2>, тогда разные классы C будут автоматически установлены на разные значения:

Внутренний принцип склеарна: C со значением метки 1: вес 1 * C, C со значением метки 2: вес 2 * C

В качестве альтернативы, вы можете использовать «сбалансированный» режим, внутренний принцип sklearn: этот режим использует значение y для автоматической регулировки веса, обратно пропорционального частоте класса во входных данных: n_samples / (n_classes * np.bincount (y)

соответствует параметру интерфейса sample_weight:

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

зачем логарифмировать данные для регрессии. image loader. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-image loader. картинка зачем логарифмировать данные для регрессии. картинка image loader.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция зачем логарифмировать данные для регрессии. adcdac5e83b96db31e67fa84e227119a. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-adcdac5e83b96db31e67fa84e227119a. картинка зачем логарифмировать данные для регрессии. картинка adcdac5e83b96db31e67fa84e227119a.такая, что сумма квадратов разностей зачем логарифмировать данные для регрессии. 5e367c2fc224d88b59f3e8345f2abb80. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-5e367c2fc224d88b59f3e8345f2abb80. картинка зачем логарифмировать данные для регрессии. картинка 5e367c2fc224d88b59f3e8345f2abb80.минимальна.

зачем логарифмировать данные для регрессии. image loader. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-image loader. картинка зачем логарифмировать данные для регрессии. картинка image loader.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции зачем логарифмировать данные для регрессии. adcdac5e83b96db31e67fa84e227119a. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-adcdac5e83b96db31e67fa84e227119a. картинка зачем логарифмировать данные для регрессии. картинка adcdac5e83b96db31e67fa84e227119a., как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений зачем логарифмировать данные для регрессии. 98f6394b2bd98b852bb0895b97d55e9f. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-98f6394b2bd98b852bb0895b97d55e9f. картинка зачем логарифмировать данные для регрессии. картинка 98f6394b2bd98b852bb0895b97d55e9f.вокруг регрессии зачем логарифмировать данные для регрессии. d9313f8d06735d6988074f717265c2ac. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-d9313f8d06735d6988074f717265c2ac. картинка зачем логарифмировать данные для регрессии. картинка d9313f8d06735d6988074f717265c2ac.является дисперсия.

зачем логарифмировать данные для регрессии. b4974f50ca567c17e3684ddc304cfb30. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-b4974f50ca567c17e3684ddc304cfb30. картинка зачем логарифмировать данные для регрессии. картинка b4974f50ca567c17e3684ddc304cfb30.

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

зачем логарифмировать данные для регрессии. cce55224399ba3b3eaccaa379adf84cd. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-cce55224399ba3b3eaccaa379adf84cd. картинка зачем логарифмировать данные для регрессии. картинка cce55224399ba3b3eaccaa379adf84cd.

В матричном виде это выгладит

зачем логарифмировать данные для регрессии. a1c7586bc29a8d231fba90e1b1526eb1. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-a1c7586bc29a8d231fba90e1b1526eb1. картинка зачем логарифмировать данные для регрессии. картинка a1c7586bc29a8d231fba90e1b1526eb1.

зачем логарифмировать данные для регрессии. image loader. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-image loader. картинка зачем логарифмировать данные для регрессии. картинка image loader.

Случайная величина зачем логарифмировать данные для регрессии. 98f6394b2bd98b852bb0895b97d55e9f. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-98f6394b2bd98b852bb0895b97d55e9f. картинка зачем логарифмировать данные для регрессии. картинка 98f6394b2bd98b852bb0895b97d55e9f.может быть интерпретирована как сумма из двух слагаемых:

зачем логарифмировать данные для регрессии. 3c35a120de921106db0d25d4b78f2ff1. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-3c35a120de921106db0d25d4b78f2ff1. картинка зачем логарифмировать данные для регрессии. картинка 3c35a120de921106db0d25d4b78f2ff1.

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
зачем логарифмировать данные для регрессии. image loader. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-image loader. картинка зачем логарифмировать данные для регрессии. картинка image loader.

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

зачем логарифмировать данные для регрессии. image loader. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-image loader. картинка зачем логарифмировать данные для регрессии. картинка image loader.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

зачем логарифмировать данные для регрессии. 194b3d1b01794f1b74b2a9d3803593c6. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-194b3d1b01794f1b74b2a9d3803593c6. картинка зачем логарифмировать данные для регрессии. картинка 194b3d1b01794f1b74b2a9d3803593c6.

В этой формуле зачем логарифмировать данные для регрессии. 9254f58b7b3dd523c76954c8256b0df7. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-9254f58b7b3dd523c76954c8256b0df7. картинка зачем логарифмировать данные для регрессии. картинка 9254f58b7b3dd523c76954c8256b0df7.— коэффициент взаимной детерминации между зачем логарифмировать данные для регрессии. 0792604d8160e087f70a25ec5321ce46. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-0792604d8160e087f70a25ec5321ce46. картинка зачем логарифмировать данные для регрессии. картинка 0792604d8160e087f70a25ec5321ce46.и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

зачем логарифмировать данные для регрессии. 369c36deee40924874ae90b4ae4bc985. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-369c36deee40924874ae90b4ae4bc985. картинка зачем логарифмировать данные для регрессии. картинка 369c36deee40924874ae90b4ae4bc985.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Блог про HR-аналитику

Сделать репост в соц сети!

четверг, 12 февраля 2015 г.

Логарифмирование переменной: зачем это нужно и как интерпретировать

зачем логарифмировать данные для регрессии. r. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-r. картинка зачем логарифмировать данные для регрессии. картинка r.

зачем логарифмировать данные для регрессии. upravlenie ehffektivnostju raspredelenie zavisimojj peremennojj primery. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-upravlenie ehffektivnostju raspredelenie zavisimojj peremennojj primery. картинка зачем логарифмировать данные для регрессии. картинка upravlenie ehffektivnostju raspredelenie zavisimojj peremennojj primery.

зачем логарифмировать данные для регрессии. r1. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-r1. картинка зачем логарифмировать данные для регрессии. картинка r1.

Это уже ближе к нормальному распределению.
И уравнение регрессии вы считаете для логарифмированной переменной.

Как интерпретировать

16 комментариев:

Эдуард, извините, я по своему примеру. Прологарифмировал стаж по натуральному основанию, распределение стало ближе к нормальному, коэф Колмогорова-Смирнова 0,308

я для вас и написал
и для Ивана
так теперь сделайте регрессионный анализ

пост для понимания ясно написан? или есть вопросы?

1) лог стаж
2) а какую информацию вы собираете при приеме на работу?

А что в лог-стаже вместо пропусков ставить. Или строим регрессию только по уволившимся?

сделайте по уволившимся. выбирайте только уволившихся и по ним делайте лог стажа
Максим, мне важно, чтобы вы сами делали, пробовали на вкус.
Появится опыт, уверенность

Эдуард, я имел ввиду закрывать переменную стаж на сегодняшнее число по тем, кто работает сейчас или оставлять пустой?

Максим, 1) попробуйте писать в одну ветку. 2) я не вижу ваших выводов

мне этого недостаточно

Источник

Зачем логарифмировать данные для регрессии

4.9. Нелинейные модели регрессии: методы линеаризации

До сих пор мы рассматривали линейные регрессионные модели и их обобщения, которые так же были линейными моделями. Для таких моделей получены уравнения для оценок параметров и их характеристик, доказаны свойства оценок, разработаны процедуры тестирования и проверки адекватности. Уравнения, описывающие эти модели и соответствующие процедуры, имеют наиболее простой вид и достаточно просто реализуются на практике в виде вычислительных алгоритмов. Поэтому исследователю можно дать следующую рекомендацию : если есть возможность построить линейную модель с большим количеством регрессоров, вместо нелинейной модели, пусть даже и с меньшим числом регрессоров, то лучше предпочесть линейную модель.

К сожалению, при моделировании реальных социально-экономических процессов далеко не всегда можно описать процесс с помощью линейной зависимости. Однако, можно попытаться так преобразовать нелинейную модель, чтобы свести ее к линейной. Мы покажем, что во многих случаях это удается сделать, и достаточно простым способом.

Нелинейная регрессия, линейная относительно параметров

Широкий класс нелинейных моделей регрессии можно представить в виде

где зачем логарифмировать данные для регрессии. f2. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f2. картинка зачем логарифмировать данные для регрессии. картинка f2.— известные, в общем случае нелинейные, функции наблюдаемых независимых переменных, (j=1,2,…,k; i=1,2,…,n) (напомним, что переменные зачем логарифмировать данные для регрессии. f3. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f3. картинка зачем логарифмировать данные для регрессии. картинка f3.все равны единице).

Нетрудно заметить, что нелинейная модель вида ( 4.61 ) легко сводится к линейной, если произвести следующее преобразование переменных: зачем логарифмировать данные для регрессии. f4. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f4. картинка зачем логарифмировать данные для регрессии. картинка f4., то есть в уравнении ( 4.61 ) в качестве регрессоров рассматривать функции независимых (объясняющих) переменных, значения которых можно вычислить, имея наблюдения независимых переменных.

Таким образом, если регрессионная модель нелинейна относительно независимых переменных, но линейна относительно коэффициентов регрессии и случайной составляющей, то ее можно рассматривать как линейную, если в качестве регрессоров взять преобразованные независимые переменные.

Регрессия, нелинейная относительно параметров и случайного члена

Многие экономические процессы можно описать нелинейными функциями вида

зачем логарифмировать данные для регрессии. f1. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f1. картинка зачем логарифмировать данные для регрессии. картинка f1.

зачем логарифмировать данные для регрессии. f5. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f5. картинка зачем логарифмировать данные для регрессии. картинка f5.

Уравнение ( 4.63 ) линейно относительно логарифмов переменных модели. Таким образом, вводя преобразования переменных вида зачем логарифмировать данные для регрессии. f7. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f7. картинка зачем логарифмировать данные для регрессии. картинка f7.нелинейную модель ( 4.62 ) можно свести к линейной.

Интерпретация коэффициентов логарифмической регрессии

Рассмотрим модель с одним регрессором

зачем логарифмировать данные для регрессии. f6. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f6. картинка зачем логарифмировать данные для регрессии. картинка f6.

Продифференцируем правую и левую части этого уравнения, получим

зачем логарифмировать данные для регрессии. f8. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f8. картинка зачем логарифмировать данные для регрессии. картинка f8.
зачем логарифмировать данные для регрессии. f9. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f9. картинка зачем логарифмировать данные для регрессии. картинка f9.

Правая часть формулы ( 4.65 ) определяет эластичность переменной y по x. Понятие эластичности широко используется в экономическом анализе. Коэффициент эластичности показывает, на сколько процентов изменится величина переменной y при изменении переменной x на один процент. Таким образом, в модели ( 4.64 ) параметр зачем логарифмировать данные для регрессии. f11. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f11. картинка зачем логарифмировать данные для регрессии. картинка f11.— это ни что иное, как коэффициент эластичности переменной y по x.

1) Следует помнить, что логарифмическое преобразование можно применять только в случае, если переменные исходной нелинейной модели принимают положительные значения. В противном случае (при отрицательных значениях переменных) логарифмическая функция не определена.

2) Если в исходной модели возмущения нормально распределены, то преобразованные возмущения зачем логарифмировать данные для регрессии. f14. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f14. картинка зачем логарифмировать данные для регрессии. картинка f14.этим свойством обладать не будут, что приводит к проблемам с применением тестов, которые основаны на предположении о нормальном распределении возмущений.

3) При нелинейных преобразованиях, подобных логарифмическому, нельзя утверждать, что свойства оценок преобразованной модели после обратного преобразования сохранятся и для исходной модели (будут иметь место и для исходной модели). В частности, оценка вида зачем логарифмировать данные для регрессии. f15. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f15. картинка зачем логарифмировать данные для регрессии. картинка f15.параметра зачем логарифмировать данные для регрессии. f16. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f16. картинка зачем логарифмировать данные для регрессии. картинка f16.(здесь зачем логарифмировать данные для регрессии. f17. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f17. картинка зачем логарифмировать данные для регрессии. картинка f17.— оценка параметра зачем логарифмировать данные для регрессии. f18. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f18. картинка зачем логарифмировать данные для регрессии. картинка f18.в преобразованной модели) не будет обладать теми же свойствами, что и оценка зачем логарифмировать данные для регрессии. f17. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f17. картинка зачем логарифмировать данные для регрессии. картинка f17..

4) Если случайный член в уравнение ( 4.62 ) входит аддитивно, то в этом случае модель невозможно преобразовать так, чтобы свести ее к линейной.

Некоторые типичные часто применяемые в эмпирических исследованиях нелинейные эконометрические модели

1) Полиномиальная:

зачем логарифмировать данные для регрессии. f10. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f10. картинка зачем логарифмировать данные для регрессии. картинка f10.
зачем логарифмировать данные для регрессии. f19. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f19. картинка зачем логарифмировать данные для регрессии. картинка f19.

2) Логарифмическая (линейная относительно логарифмов)

зачем логарифмировать данные для регрессии. f20. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f20. картинка зачем логарифмировать данные для регрессии. картинка f20.

Заметим, что в данное уравнение, в отличие от ( 4.63 ), шумы входят аддитивно.

3) Экспоненциальная:

зачем логарифмировать данные для регрессии. f21. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f21. картинка зачем логарифмировать данные для регрессии. картинка f21.

4) Обратная:

зачем логарифмировать данные для регрессии. f22. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f22. картинка зачем логарифмировать данные для регрессии. картинка f22.

или

зачем логарифмировать данные для регрессии. f23. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f23. картинка зачем логарифмировать данные для регрессии. картинка f23.

5) Правая полулогарифмическая:

зачем логарифмировать данные для регрессии. f24. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f24. картинка зачем логарифмировать данные для регрессии. картинка f24.

6) Левая полулогарифмическая:

зачем логарифмировать данные для регрессии. f25. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f25. картинка зачем логарифмировать данные для регрессии. картинка f25.

7) Интерактивная модель (модель взаимодействия):

зачем логарифмировать данные для регрессии. f26. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f26. картинка зачем логарифмировать данные для регрессии. картинка f26.

Мы рассмотрели типичных представителей класса нелинейных функций, которые можно преобразовать к линейному виду. К сожалению, не для всех нелинейных зависимостей такие преобразования возможны. Примером нелинеаризуемой функции может служить модель вида:

зачем логарифмировать данные для регрессии. f27. зачем логарифмировать данные для регрессии фото. зачем логарифмировать данные для регрессии-f27. картинка зачем логарифмировать данные для регрессии. картинка f27.

Для оценивания подобных моделей можно использовать метод наименьших квадратов, однако в данном случае его применение приводит к необходимости решения системы нелинейных уравнений, которую, как правило, можно решить только численно, используя специальные численные методы. Здесь этот вопрос подробно не рассматривается, отметим только, что задача построения и изучения свойств нелинейной (и не сводящейся к линейной) регрессии существенно сложнее задачи построения линейной (или сводящейся к линейной) регрессии.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *