зачем логарифмировать данные для регрессии
В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?
Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?
Я всегда стесняюсь заходить в цепочку с таким большим количеством превосходных ответов, как это, но мне кажется, что лишь немногие из ответов дают какую-либо причину предпочесть логарифм другим преобразованиям, которые «сдавливают» данные, такие как корень или ответ.
Прежде чем перейти к этому, давайте подведем итоги мудрости в существующих ответах в более общем виде. Некоторое нелинейное повторное выражение зависимой переменной указывается, когда применимо любое из следующего:
Остатки имеют перекошенное распределение. Целью преобразования является получение остатков, которые приблизительно симметрично распределены (конечно, около нуля).
Разброс остатков систематически изменяется со значениями зависимой переменной («гетероскедастичность»). Цель трансформации состоит в том, чтобы устранить это систематическое изменение в распространении, достигнув приблизительной «гомоскедастичности».
Чтобы линеаризовать отношения.
Когда научная теория указывает. Например, химия часто предлагает выражать концентрации в виде логарифмов (давая активность или даже общеизвестный pH).
Когда более туманная статистическая теория предлагает, остатки отражают «случайные ошибки», которые не накапливаются аддитивно.
Упростить модель. Например, иногда логарифм может упростить количество и сложность терминов «взаимодействие».
(Эти признаки могут противоречить друг другу; в таких случаях требуется суждение.)
Итак, когда конкретно указывается логарифм вместо какого-либо другого преобразования?
Остатки имеют «сильно» положительно перекошенное распределение. В своей книге об EDA Джон Тьюки предоставляет количественные способы оценки трансформации (в пределах семейства Бокса-Кокса, или силовых трансформаций) на основе ранговых статистик невязок. Это действительно сводится к тому факту, что если взятие логарифма симметрирует остатки, это, вероятно, была правильная форма повторного выражения; в противном случае необходимо другое выражение.
Когда SD остатков прямо пропорционально установленным значениям (а не какой-то степени установленных значений).
Когда отношения близки к экспоненциальным.
Когда считается, что остатки отражают мультипликативно накапливающиеся ошибки.
Вы действительно хотите модель, в которой предельные изменения в объясняющих переменных интерпретируются как мультипликативные (процентные) изменения в зависимой переменной.
И, наконец, некоторые не- причины использовать повторное выражение :
Потому что программное обеспечение автоматически сделало это. (Достаточно сказано!)
Потому что все данные положительные. (Позитивность часто подразумевает положительную асимметрию, но это не обязательно. Более того, другие преобразования могут работать лучше. Например, корень часто лучше всего работает с подсчитанными данными.)
Чтобы «плохие» данные (возможно, низкого качества) выглядели хорошо.
Я всегда говорю студентам, что есть три причины для преобразования переменной, взяв натуральный логарифм. Причина регистрации переменной будет определять, хотите ли вы зарегистрировать независимую переменную (переменные), зависимую или обе. Чтобы было ясно, я говорю о натуральном логарифме.
Во-первых, для улучшения подгонки модели, как отмечали другие постеры. Например, если ваши остатки обычно не распределяются, то взятие логарифма перекошенной переменной может улучшить подгонку, изменив масштаб и сделав переменную более «нормально» распределенной. Например, доход усекается до нуля и часто демонстрирует положительный перекос. Если переменная имеет отрицательный перекос, вы можете сначала инвертировать переменную, прежде чем брать логарифм. Я имею в виду, в частности, шкалы Лайкерта, которые вводятся как непрерывные переменные. Хотя это обычно относится к зависимой переменной, иногда возникают проблемы с остатками (например, гетероскедастичностью), вызванными независимой переменной, которые иногда можно исправить, взяв логарифм этой переменной. Например, при запуске модели, объясняющей оценки лектора на наборе лектора и класса, переменная «размер класса» (т. Е. Количество студентов в лекции) имела выбросы, которые вызывали гетероскедастичность, потому что дисперсия в оценках лектора была меньше в большем когорты, чем меньшие когорты. Регистрация переменной студента может помочь, хотя в этом примере либо расчет робастных стандартных ошибок, либо использование взвешенных наименьших квадратов может облегчить интерпретацию.
И, наконец, может быть теоретическая причина для этого. Например, некоторые модели, которые мы хотели бы оценить, являются мультипликативными и, следовательно, нелинейными. Взятие логарифмов позволяет оценивать эти модели с помощью линейной регрессии. Хорошие примеры этого включают производственную функцию Кобба-Дугласа в экономике и уравнение Минцера в образовании. Производственная функция Кобба-Дугласа объясняет, как входы преобразуются в выходы:
Принятие логарифмов этого упрощает оценку функции с использованием линейной регрессии OLS как таковой:
Русские Блоги
Логарифмический регрессионный алгоритм
Логарифмический регрессионный алгоритм
Логарифмический регрессионный алгоритм
1. Связь и различие между логистической регрессией и линейной регрессией
Классификация и регрессия: регрессионная модель предназначена для прогнозирования непрерывной переменной (например, количества осадков, цены и т. Д.). В задаче классификации предсказать вероятность принадлежности к определенной категории,
можно рассматривать как проблему регрессии. Можно сказать, что это метод классификации, использующий алгоритм регрессии.
Выход:
Непросто напрямую использовать выходные данные линейной регрессии в качестве вероятности, поскольку ее значение может быть меньше 0 или больше 1, что не соответствует фактической ситуации. Выходные данные логистической регрессии точно [ 0,1] интервал.
Метод оценки параметров: линейная регрессия использует функцию минимизации квадратичной потери ошибки, и штрафы являются более суровыми для данных, которые отклоняются от истинного значения. Как это-
В чем проблема? Если для прогнозирования проблемы двоичной классификации <0,1>используется линейная регрессия, то выборка с истинным значением 1 и прогнозируемым значением 50 будет иметь большие штрафы, что не соответствует реальной ситуации. Чем больше прогнозируемое значение, тем больше вероятность того, что оно равно 1, и тем более серьезным оно не должно наказываться.
Логистическая регрессия использует функцию логарифмического правдоподобия для оценки параметров и кросс-энтропию в качестве функции потерь. Наказанием за ошибки прогнозирования является то, что при увеличении выходного сигнала оно постепенно приближается к константе, которая равна Там нет такой проблемы 1
Именно из-за различных методов оценки параметров модели линейной регрессии более восприимчивы к выбросам (выбросам) и могут нуждаться в постоянном изменении порога (порога).
Объяснение параметров: В линейной регрессии объяснение коэффициентов независимых переменных очень ясно, то есть, когда другие переменные остаются неизменными, величина изменения зависимой переменной одной переменной изменяется.
В логистической регрессии интерпретация коэффициентов независимых переменных зависит от ситуации, в зависимости от выбранного распределения вероятностей, такого как биномиальное распределение, распределение Пуассона и т. д.
2. Принцип логистической регрессии
Логистическая регрессия также известна как логарифмическая регрессия. Хотя название алгоритма называется логистической регрессией, алгоритм является алгоритмом классификации. Лично это связано с тем, что логистическая регрессия использует метод, аналогичный регрессии, для решения проблемы классификации.
После того, как функция Sigmoid доступна, диапазон значений составляет [0,1]. Его можно рассматривать как апостериорную оценку вероятности p (y = 1 | X) p (y = 1 | X) класса 1. Проще говоря, если есть контрольная точка x, то результат, рассчитанный функцией Сигмоида, может использоваться как вероятность того, что точка x принадлежит категории 1.
Поэтому вполне естественно, что мы классифицируем значение, рассчитанное функцией Сигмоида, как большее или равное 0,5 для категории 1 и меньше 0,5 для категории 0:
3. Вывод и оптимизация функции логистической регрессии потерь
Ссылочный адрес
Гипотетическая функция
используется для двоичной классификации
Сводка: если мы берем логарифмы и отрицательные значения, он может представлять соответствующую функцию стоимости. Направление, противоположное функции правдоподобия. (Журнал хорош только для расчета).
Единая формула
Найдем формулу совместной вероятности:
Формула итерации параметра
Объяснение:
резюме
Для общей модели обучения есть три важных шага:
4. Регуляризация и модели оценки показателей
регуляризация
Оценочный индекс
5. Преимущества и недостатки логистической регрессии
Как и в случае линейной регрессии, при удалении атрибутов, которые не связаны с выходной переменной, и атрибутов с высоким сходством, логистическая регрессия действительно будет работать лучше. Поэтому обработка признаков играет важную роль в производительности логистической и линейной регрессии.
Еще одним преимуществом логистической регрессии является то, что она очень проста в реализации и очень эффективна для обучения. В исследованиях я обычно использую модель логистической регрессии в качестве эталона, а затем пытаюсь использовать более сложные алгоритмы.
Благодаря своей простоте и быстрой реализации, логистическая регрессия также является хорошим эталоном, и вы можете использовать ее для измерения производительности других более сложных алгоритмов.
Одним из его недостатков является то, что мы не можем использовать логистическую регрессию для решения нелинейных задач, потому что ее поверхность решения является линейной.
Логистическая регрессия не является одним из самых мощных алгоритмов, ее можно легко превзойти с помощью более сложных алгоритмов. Другим недостатком является то, что он сильно зависит от правильного представления данных.
Это означает, что логистическая регрессия не будет полезным инструментом, пока вы не определили все важные независимые переменные. Поскольку результаты являются дискретными, логистическая регрессия может только предсказать результаты классификации. Это также известно его легким переоснащением.
6. Решение проблемы пробного дисбаланса
1. Искусственно преобразовать образец в сбалансированные данные.
Повышение частоты дискретизации: повторно сэмплируйте деталь с небольшим размером выборки, основываясь на размере выборки на стороне с большим объемом данных, сгенерируйте размер выборки класса с меньшим размером выборки и стороны с большим размером выборки то же самое.
Уменьшение выборки: уменьшите деталь с большим размером выборки, исходя из размера выборки стороны с наименьшим количеством данных.
Или используйте «сбалансированный» режим, внутренний принцип sklearn: непосредственно используйте n_samples / (n_classes * np.bincount (y)), то есть общее количество выборок / (количество категорий * частота появления y0) в качестве веса, что может лучше исправить наши выборки. Сбалансированная ситуация.
(B) Используйте параметр класса SVC class_weigh и sample_weight, которые можно установить в соответствии с интерфейсом в SVM:
Параметр класса SVC class_weigh:
Для class_weight введите словарь в форме <"значение метки 1": вес 1, "значение метки 2": вес 2>, тогда разные классы C будут автоматически установлены на разные значения:
Внутренний принцип склеарна: C со значением метки 1: вес 1 * C, C со значением метки 2: вес 2 * C
В качестве альтернативы, вы можете использовать «сбалансированный» режим, внутренний принцип sklearn: этот режим использует значение y для автоматической регулировки веса, обратно пропорционального частоте класса во входных данных: n_samples / (n_classes * np.bincount (y)
соответствует параметру интерфейса sample_weight:
R — значит регрессия
Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.
Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.
Введение в регрессионный анализ
Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей
минимальна.
Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.
Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений
вокруг регрессии
является дисперсия.
Линейная регрессия
Уравнения линейной регрессии можно записать в виде
В матричном виде это выгладит
Случайная величина может быть интерпретирована как сумма из двух слагаемых:
Ограничения линейной регрессии
Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.
Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.
Неоднородность дисперсии
При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.
Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.
Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.
В этой формуле — коэффициент взаимной детерминации между
и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.
Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.
Как преодолеть эти ограничения
Нарушения одной или нескольких ограничений еще не приговор.
К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.
Линейная регрессия плюсов на Хабре
Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.
Загружает данные из tsv файла.
Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.
В первой строке мы задаем параметры линейной регрессии. Строка points
. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points
Перейдем теперь к расшифровке полученных результатов.
Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.
Проверим значения параметров линейной регрессии.
Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.
И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.
В заключение
Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.
Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.
Блог про HR-аналитику
Сделать репост в соц сети!
четверг, 12 февраля 2015 г.
Логарифмирование переменной: зачем это нужно и как интерпретировать
Это уже ближе к нормальному распределению.
И уравнение регрессии вы считаете для логарифмированной переменной.
Как интерпретировать
16 комментариев:
Эдуард, извините, я по своему примеру. Прологарифмировал стаж по натуральному основанию, распределение стало ближе к нормальному, коэф Колмогорова-Смирнова 0,308
я для вас и написал
и для Ивана
так теперь сделайте регрессионный анализ
пост для понимания ясно написан? или есть вопросы?
1) лог стаж
2) а какую информацию вы собираете при приеме на работу?
А что в лог-стаже вместо пропусков ставить. Или строим регрессию только по уволившимся?
сделайте по уволившимся. выбирайте только уволившихся и по ним делайте лог стажа
Максим, мне важно, чтобы вы сами делали, пробовали на вкус.
Появится опыт, уверенность
Эдуард, я имел ввиду закрывать переменную стаж на сегодняшнее число по тем, кто работает сейчас или оставлять пустой?
Максим, 1) попробуйте писать в одну ветку. 2) я не вижу ваших выводов
мне этого недостаточно
Зачем логарифмировать данные для регрессии
4.9. Нелинейные модели регрессии: методы линеаризации
До сих пор мы рассматривали линейные регрессионные модели и их обобщения, которые так же были линейными моделями. Для таких моделей получены уравнения для оценок параметров и их характеристик, доказаны свойства оценок, разработаны процедуры тестирования и проверки адекватности. Уравнения, описывающие эти модели и соответствующие процедуры, имеют наиболее простой вид и достаточно просто реализуются на практике в виде вычислительных алгоритмов. Поэтому исследователю можно дать следующую рекомендацию : если есть возможность построить линейную модель с большим количеством регрессоров, вместо нелинейной модели, пусть даже и с меньшим числом регрессоров, то лучше предпочесть линейную модель.
К сожалению, при моделировании реальных социально-экономических процессов далеко не всегда можно описать процесс с помощью линейной зависимости. Однако, можно попытаться так преобразовать нелинейную модель, чтобы свести ее к линейной. Мы покажем, что во многих случаях это удается сделать, и достаточно простым способом.
Нелинейная регрессия, линейная относительно параметров
Широкий класс нелинейных моделей регрессии можно представить в виде
2) Логарифмическая (линейная относительно логарифмов)
Заметим, что в данное уравнение, в отличие от ( 4.63 ), шумы входят аддитивно.
3) Экспоненциальная:
4) Обратная:
или
5) Правая полулогарифмическая:
6) Левая полулогарифмическая:
7) Интерактивная модель (модель взаимодействия):
Мы рассмотрели типичных представителей класса нелинейных функций, которые можно преобразовать к линейному виду. К сожалению, не для всех нелинейных зависимостей такие преобразования возможны. Примером нелинеаризуемой функции может служить модель вида:
Для оценивания подобных моделей можно использовать метод наименьших квадратов, однако в данном случае его применение приводит к необходимости решения системы нелинейных уравнений, которую, как правило, можно решить только численно, используя специальные численные методы. Здесь этот вопрос подробно не рассматривается, отметим только, что задача построения и изучения свойств нелинейной (и не сводящейся к линейной) регрессии существенно сложнее задачи построения линейной (или сводящейся к линейной) регрессии.
- зачем ловят подвязку на свадьбе
- зачем логопед задает домашнее задание консультация для родителей