зачем нужна тестовая выборка

22.07.202229.07.2022 admin 0 Comments

Зачем нужна тестовая выборка

Наблюдения в обучающей выборке (training set) содержат опыт, который алгоритм использует для обучения. В задачах обучения с учителем каждое наблюдение состоит из наблюдаемой (зависимой) переменной и одной или нескольких независимых переменных.

Тестовое множество, или тестовая выборка, представляет из себя аналогичный набор наблюдений, который используется для оценки качества модели, используя некоторые показатели.

Важно, чтобы никакие наблюдения из обучающей выборки не были включены в тестовую выборку. Если тестовые данные действительно содержат примеры из обучающей выборки, то будет трудно оценить, научился ли алгоритм обобщать, используя обучающую выборку или же просто запомнил данные. Программа, которая хорошо обобщает, будет в состоянии эффективно выполнять задачи с новыми данными. И наоборот, программа, которая запоминит обучающие данные, создав чрезмерно сложную модель, может точно предсказывать значения зависимой переменной для обучающего множества, но не сможет предсказать значение зависимой переменной для новых примеров.

Переобучение

Запоминание обучающей выборки называется переобучением (overfitting). Программа, которая запомнит свои наблюдения не сможет выполнить поставленную задачу правильно, так как она запомнит отношения и структуры в данных, являющиеся шумом или простым совпадением. Балансировка между запоминанием и обобщением, или переобучением и недообучением (underfitting), является общей проблемой для многих алгоритмов машинного обучения. Одним из способов избежать переобучение для многих моделей является применение регуляризации.

Проверочное множество

В дополнение к обучающей и тестовой выборкам иногда требуется третий набор наблюдений, называемый проверочным (validation) множеством. Проверочное множество используется для настройки переменных, называемых гиперпараметрами, которые контролируют, как модель обучается. Программа по-прежнему оценивается на тестовом множестве, для получения оценки ее эффективности в реальном мире. Показатели эффективности на проверочном множестве не должны использоваться в качестве оценки реальной эффективности модели, так как программа была настроена, используя проверочные данные. Как правило, единая выборка наблюдений, используемых для обучения, разделяется на обучающее, тестовое и проверочное множества. Не существует каких-то особенных требований к размерам таких множеств, и они могут изменяться в соответствии с количеством имеющихся данных. На практике же, для обучающей выборки используется слудующая схема:

Качество данных

Некоторые обучающие выборки могут содержать только несколько сотен наблюдений, другие могут включать в себя миллионы точек данных. Недорогие облачные хранилища данных, множество встроенных в смартфоны и различные гаджеты датчиков внесли свой вклад в современное состояние BigData. У нас имеется доступ к обучающим множествам с миллионами, или даже миллиардами примеров. Предсказательная сила многих алгоритмов машинного обучения растет при увеличении размера обучающих выборок данных. Тем не менее, алгоритмы машинного обучения, также следуют принципу «мусор на входе — мусор на выходе». Студент, который готовится к экзамену, читая большой, запутанной учебник, который содержит много ошибок, скорее всего, не получит лучшую оценку, чем студент, который читает небольшой, но хорошо написанный учебник. Аналогично, алгоритм обучающийся на большой коллекции зашумленных, не относящихся к делу, или неправильно маркированных данных не будет работать лучше, чем алгоритм обучающийся на меньшем наборе данных, которые более адекватны задачам в реальном мире.

Многие из обучающих множеств подготавливаются вручную, или же с использованием полуавтоматических процессов. Создание больших коллекций данных для обучения по прецедентам может быть достаточно затратным процессом в некоторых областях.

Кросс-валидация

A	B	C	D	E
Перекрестная проверка, 1 итерация	Тестовое множество	Обучающее множество	Обучающее множество	Обучающее множество	Обучающее множество
Перекрестная проверка, 2 итерация	Обучающее множество	Тестовое множество	Обучающее множество	Обучающее множество	Обучающее множество
Перекрестная проверка, 3 итерация	Обучающее множество	Обучающее множество	Тестовое множество	Обучающее множество	Обучающее множество
Перекрестная проверка, 4 итерация	Обучающее множество	Обучающее множество	Обучающее множество	Тестовое множество	Обучающее множество
Перекрестная проверка, 5 итерация	Обучающее множество	Обучающее множество	Обучающее множество	Обучающее множество	Тестовое множество

Оригинальный набор данных разбивается на пять подмножеств одинакового размера, обозначенных от A до E. Сначала модель обучается на частях В-Е, и тестируется на части данных А. На следующей итерации, модель обучается на разделах A, C, D и Е и тестируется на данных части В. Части меняются до тех пор, пока модель не обучится и протестируется на всех частях. Кросс-валидация дает более точную оценку эффективности модели, чем тестирование с использованием только одной части данных.

Источник

Выборка

Материал из MachineLearning.

Содержание

Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.

Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором прецедентов можно управлять, то возникают задачи оптимального формирования выборки, см. также активное обучение, планирование экспериментов, выборочное обследование.

По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных, машинного обучения.

Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set). Поэтому анализ данных можно понимать также как анализ конечных выборок. Основные цели анализа данных:

Вероятностная модель порождения данных

Случайная выборка

Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Объём (длина) выборки считается произвольной, но фиксированной, неслучайной величиной.

Однородная выборка

Независимая выборка

Простая выборка

Простая выборка — это случайная, однородная, независимая выборка (i.i.d. — independent, identically distributed).

Эквивалентное определение: выборка простая, если значения являются реализациями независимых одинаково распределённых случайных величин.

Простая выборка является математической моделью серии независимых опытов. На гипотезу простой выборки существенно опираются многие методы статистического анализа данных и машинного обучения, в частности, большинство статистических тестов, а также оценки обобщающей способности в теории вычислительного обучения.

Также существует множество методов, не предполагающих однородность и/или независимость выборки, в частности, в теории случайных процессов, в прогнозировании временных рядов. Метод максимума правдоподобия позволяет оценивать значения параметров модели по обучающей выборке, в общем случае не требуя, чтобы выборка была однородной и независимой. Однако в случае простых выборок применение метода существенно упрощается.

Обучающая и тестовая выборка

Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели. Если обучающая и тестовая выборки независимы, то оценка, сделанная по тестовой выборке, является несмещённой.

Оценку качества, сделанную по тестовой выборке, можно применить для выбора наилучшей модели. Однако тогда она снова окажется оптимистически смещённой. Для получения немсещённой оценки выбранной модели приходится выделять третью выборку.

Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Источник

Выборка

Материал из MachineLearning.

Содержание

Вероятностная модель порождения данных

Случайная выборка

Однородная выборка

Независимая выборка

Простая выборка

Простая выборка — это случайная, однородная, независимая выборка (i.i.d. — independent, identically distributed).

Обучающая и тестовая выборка

Источник

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 36 и 37

Обучение и тестирование на выборках, имеющих разное распределение

36. Когда приходится обучать и тестировать алгоритмы на отличающихся распределениях

Пользователи вашего кошачьего приложения загрузили 10 000 картинок, которые были размечены вами, как изображения с кошками и изображение без кошек. У вас так же есть большая выборка из 200 000 изображений, собранных в Интернете. Как в этом случае выбрать тренировочную, валидационную и тестовую выборки?

Так как 10000 загруженных пользователями изображений точно отражают реальное вероятностное распределение данных, на котором ваш алгоритм должен хорошо работать, вы можете использовать эти картинки для валидационной и тестовой выборок. Если вы обучаете алгоритм глубокого обучения, требующий большого количества данных, вы можете использовать для его обучения 200 000 дополнительных примеров, полученных из Интернета. В этом случае ваша тренировочная и тестовая с валидационной выборки будут иметь разное вероятностное распределение. Как это повлияет на вашу работу?

Вместо того, чтобы возиться с выбором данных для тренировочной, валидационной и тестовой выборок, мы могли бы взять все 210000 имеющихся у нас изображений, перемешаить их и случайным образом выбрать данные для каждой выборки. В этом случае все три выборки будут содержать данные из одного и того же распределения.

Но я против такого подхода. Из-за того, что около 97.6% данных (205,000/210,000 ≈ 97.6%) валидационной и тестовой выборок будут взяты из данных, найденных в Интернете (не полученные от пользователей) и они не будут отражать реального распределения на котором необходимо достигнуть высокого качества. Помните нашу рекомендацию по выбору валидационной и тестовой выборок:

Выбирайте валидационную и тествую выборки, отражающие данные, которые ваш алгоритм будет получать после запуска приложения и на которых он должен хорошо работать

Большая часть академической литературы по машинному обучению предполагает, что тренировочная, валидационная и тестовая выборки берутся из одного и того же распределения.

Замечание автора: Существует несколько научных исследований по обучению и тестированию на различных распределениях. Примеры включают в себя «адаптацию предметной области», «трансферное обучение» и «многозадачное обучение». Но между теорией и практикой все еще существует огромный разрыв. Если вы тренируетесь на наборе данных A и тестируете данные совсем другого типа B, удача может оказать огромное влияние на эффективность вашего алгоритма. (Здесь «удача» включает в себя разработанные вручную функции исследователя для конкретной задачи, а также другие факторы, которые мы просто еще не понимаем.) Это затрудняет систематическое академического изучение обучения и тестирования на различных распределениях.

В начале развития машинного обучения данных было мало. Обычно имелась выборка, полученная из некоторого распределения. Ее случайным образом разбивали на обучающую, валидационную и тестовую. Предположение о том, что все данные поступали из одного и того же источника, автоматически удовлетворялось.

Но в эпоху больших данных появился доступ к огромным обучающим выборкам, таким как изображения кошек в Интернете. Даже если обучающая выборка взята из другого распределения, нежели валидационная и тестовая, мы все равно хотим использовать ее для обучения, поскольку она может оказаться очень информативной.

В примере с детектором кошек вместо того, чтобы разделить все 10000 загруженных пользователем изображений между валидационной и тестовой выборками, мы могли бы использовать 5000 для валидационной и тестовой выборок. А оставшиеся 5000 загруженных пользователями примеров добавить в обучающую выборку. Таким образом, обучающая выборка будет содержать 205 000, 5000 из которых будут из того же распределения, что и обучающая и тестовая выборки и 200 000 изображений, полученных из Интернета. В следующей главе мы обсудим преимущества такого подхода.

Или для второго примера. Предположим, вы создаете систему распознавания речи для транскрибирования уличных адресов, которая будет использоваться для голосового интерфейса картографических и навигационных мобильных приложений. У вас есть 20 000 примеров того, как пользователи произносят названия улиц. Кроме того имеется 500 000 примеров других аудиоклипов, в которых люди говорят на разные темы. Вы можете взять 10 000 примеров произношения адресов для наборов валидационной и тестовой выборок и использовать оставшиеся 10 000 плюс 500 000 примеров для обучающей выборки.

Продолжая действовать так, как будто данные обучающей, валидационной и тестовой выборки имеют одинаковое распределение, мы должны иметь ввиду, что различие в распределениях между обучающей и валидационной с тестовой выборками привносит новые проблемы.

37. В каких случаях нужно использовать все данные, которые у вас есть

Предположим, что в обучающую выборку вашего детектора кошек входит 10 000 загруженных пользователем изображений. Их распределение совпадает с валидационной и тестовой выборками и именно на этом распределении алгоритм должен показывать лучшие результаты. Так же имеются 20 000 изображений, загруженных из Интернета. Нужно ли включить в обучающую выборку все 20 000 + 10 000 = 30 000 изображений для обучения алгоритма или лучше отбросить 20 000 изображений добытых из Интернета, чтобы избежать смещения в работе алгоритма?

При использовании более ранних поколений алгоритмов (таких как разработанные вручную системы компьютерного зрения, в основе которых использовался простой линейный классификатор), существовал реальный риск того, что объединение обоих типов данных приведет к ухудшению качества работы системы. Некоторые инженеры, знающие об этом, могут возражать против включения в обучающую выборку 20000 изображений, полученных из Интернета.

Но в современную эпоху мощных и гибких обучаемых алгоритмов, таких как большие нейронные сети, этот риск значительно уменьшился. Если вы можете позволить себе построить нейронную сеть с достаточно большим количеством скрытых нейронов / слоев, вы можете смело добавлять 20000 изображений в свою обучающую выборку. Добавление изображений, скорее всего, повысит качество работы алгоритма.

Добавление дополнительных 20000 изображений даст следующие эффекты:

Второй эффект можно проиллюстрировать, обратившись к вымышленному персонажу. Шерлок Холмс, говорил, что мозг похож на чердак, место на котором ограничено и «при каждом добавлении знаний вы забываете что-то из того, что знали раньше. Поэтому крайне важно не тащить туда все подряд, чтобы бесполезные факты не вытесняли полезные»

К счастью, если имеются достаточные вычислительные мощности, необходимые для построения большой нейронной сети, то в наличие есть большой чердак и это не является серьезной проблемой. Тогда вы имеете достаточно мощностей для обучения как на данных из Интернета, так и на изображениях, загруженных в мобильное приложение, при этом емкости сети достаточно для всех данных. «Мозг» вашего алгоритма достаточно велик, чтобы вам не приходилось беспокоиться о том, что вам не хватает чердачного пространства.

Но если у вас нет достаточно большой нейронной сети (или другого столь же мощного алгоритма обучения), то вам следует уделять больше внимания тому, чтобы распределение вашей обучающей выборки соответствовало распределению валидационной и тестовой выборкам.

Если вы считаете, что у вас есть данные, которые не приносят никакой пользы, следует отказаться от них для экономии вычислительных мощностей. Например, предположим, что валидационная и тестовая выборки содержат в основном случайные изображения людей, мест, ориентиров, животных. Допустим, также имеется большая коллекция отсканированных исторических документов:

Эти документы не содержат ничего напоминающего котов. Они также совершенно непохожи на распределения валидационной и тестовой выборок. Нет никакого смысла включать эти данные в качестве отрицательных примеров. Выгода от первого эффекта, описанного выше будет ничтожной — нейронная сеть вряд ли сможет извлечь из этих данных что-то, что поможет ей лучше работать на валидационной и тестовой выборках вашего приложения. Включение этих данных приведет к потере вычислительных ресурсов и возможно уменьшит способность нейронной сети к аппроксимации функций (в конечном счете уменьшит ее распознающие возможности).

Источник

Насколько данные для обучения модели (не)похожи на тестовую выборку?

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?

В реальных кейсах такая ситуация встречается повсеместно. При разработке моделей машинного обучения мы сталкиваемся с ситуацией, когда наша модель хорошо работает с обучающей выборкой, но качество модели резко падает на тестовых данных.

И речь здесь идет не о переобучении. Допустим, что мы построили модель, которая дает отличный результат на кросс-валидации, однако показывает плохой результат на тесте. Значит в тестовой выборке есть информация, которую мы не учитываем.

Представьте ситуацию, в которой мы прогнозируем поведение клиента в магазине. Если обучающая и тестовая выборка выглядят так, как показано на картинке ниже, это явная проблема:

В этом примере модель обучена на данных со средним значением признака «возраст покупателя» ниже, чем среднее значение аналогичного признака на тесте. В процессе обучения модель никогда «не видела» бОльших значений признака «возраст». Если возраст является важным признаком для модели, то не следует ожидать хороших результатов на тестовой выборке.

В этом тексте мы поговорим о «наивных» подходах, позволяющих выявить подобные явления и попробовать их устранить.

Ковариантный сдвиг

Дадим более аккуратное определение данному понятию. Ковариантность относится к значениям признаков, а под ковариантным сдвигом понимается ситуация, когда распределения значений признаков в обучающей и тестовой выборке имеют разные характеристики (параметры).

В реальных задачах с большим количеством переменных ковариантный сдвиг трудно обнаружить. В статье обсуждается метод выявления, а также учета ковариантного сдвига в данных.

Основная идея

Если в данных существует сдвиг, то при смешивании двух выборок мы сможем построить классификатор, способный определить принадлежность объекта к обучающей либо тестовой выборке.

Давайте поймём, почему это так. Вернёмся к примеру с покупателями, где возраст был «сдвинутым» признаком обучающей и тестовой выборки. Если взять классификатор (например, на основе случайного леса) и попробовать разделить смешанную выборку на обучение и тест, то возраст будет очень важным признаком для такой классификации.

Реализация

Попробуем применить описанную идею к реальному датасету. Используем датасет из соревнования на Kaggle.

Шаг 1: подготовка данных

Первым делом выполним ряд стандартных шагов: почистить, заполнить пропуски, выполнить label encoding для категориальных признаков. Для рассматриваемого датасета шаг не потребовался, так что пропустим его описание.

Шаг 2: добавление индикатора источника данных

К обеим частям датасета — обучающей и тестовой — необходимо добавить новый признак-индикатор. Для обучающей выборки со значением «1», для тестовой, соответственно, «0».

Шаг 3: объединение обучающей и тестовой выборки

Теперь необходимо объединить два датасета. Ппоскольку обучающий датасет содержит столбец целевых значений ‘target’, которого нет в тестовом датасете, этот столбец необходимо удалить.

Шаг 4: построение и тестирование классификатора

Для целей классификации будем использовать Random Forest Classifier, который настроим для предсказания меток источника данных в объединенном датасете. Можно использовать любой другой классификатор.

Используем стратифицированное рандомизированное разбиение на 4 фолда. Таким образом мы сохраним соотношение меток ‘is_train’ в каждом фолде как в исходной объединенной выборке. Для каждого разбиенения обучим классификатор на большей части разбиения и предскажем метку класса для меньшей отложенной части.

Шаг 5: интерпретация результатов

Посчитаем значение метрики ROC AUC для нашего классификатора. На основе этого значения сделаем вывод, насколько хорошо наш классификатор выявляет ковариантный сдвиг в данных.

Если классификатор с хорошо разделяет объекты на обучающий и тестовый датасет, то значение метрики ROC AUC должно быть значительно больше 0.5, в идеале близко к 1. Такая картина свидетельствует о сильном ковариантном сдвиге в данных.

Найдём значение ROC AUC:

Получившееся значение близко к 0.5. А это значит, что наш классификатор по качеству такой же, как случайный предсказатель меток. Нет свидетельств наличия ковариантного сдвига в данных.

Поскольку датасет взят с Kaggle, результат довольно предсказуем. Как и в других соревнованиях по машинному обучению, данные тщательно выверены, чтобы убедиться в отсутствии сдвигов.

Но такой подход может быть применен в других задачах науки о данных для проверки наличия ковариантного сдвига непосредственно перед началом решения.

Дальнейшие шаги

Итак, либо мы наблюдаем ковариантный сдвиг, либо нет. Что же делать, чтобы улучшить качество модели на тесте?

Удаление смещенных признаков:

Примечание: метод применим, если наблюдается ковариантный сдвиг в данных.

Использование весов важностей объектов на основе оценки коэффициента плотности

Примечание: метод применим независимо от того, есть ли ковариантный сдвиг в данных.

Давайте посмотрим на предсказания, которые мы получили в предыдущем разделе. Для каждого объекта предсказание содержит вероятность того, что этот объект принадлежит обучающей выборке для нашего классификатора.

Например, для первого объекта наш Random Forest Classifier считает, что он принадлежит обучающей выборке с вероятностью 0.397. Назовём эту величину . Или можно сказать, что вероятность принадлежности тестовым данным равна 0.603. Аналогично, назовём вероятность .

Теперь небольшой трюк: для каждого объекта обучающего датасета вычислим коэффициент .

Коэффициент говорит нам, насколько объект из обучающей выборки близок к тестовым данным. Основная мысль:

Мы можем использовать как веса в любой из моделей, чтобы увеличить вес тех наблюдений, которые выглядят схожими с тестовой выборкой. Интуитивно это имеет смысл, так как наша модель будет более ориентирована на данные как в тестовом наборе.

Эти веса могут быть вычислены с помощью кода:

Полученные коэффициенты можно передать модели, например, следующим образом:

Пара слов о полученной гистограмме:

Заключение

Надеемся, что вам этот пост поможет вам в выявлении «ковариантного сдвига» в данных и борьбе с ним.

Источник

Зачем нужна тестовая выборка

Переобучение

Проверочное множество

Качество данных

Кросс-валидация

Выборка

Материал из MachineLearning.

Содержание

Вероятностная модель порождения данных

Случайная выборка

Однородная выборка

Независимая выборка

Простая выборка

Обучающая и тестовая выборка

Выборка

Материал из MachineLearning.

Содержание

Вероятностная модель порождения данных

Случайная выборка

Однородная выборка

Независимая выборка

Простая выборка

Обучающая и тестовая выборка

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 36 и 37

Обучение и тестирование на выборках, имеющих разное распределение

36. Когда приходится обучать и тестировать алгоритмы на отличающихся распределениях

37. В каких случаях нужно использовать все данные, которые у вас есть

Насколько данные для обучения модели (не)похожи на тестовую выборку?

Ковариантный сдвиг

Основная идея

Реализация

Шаг 1: подготовка данных

Шаг 2: добавление индикатора источника данных

Шаг 3: объединение обучающей и тестовой выборки

Шаг 4: построение и тестирование классификатора

Шаг 5: интерпретация результатов

Дальнейшие шаги

Удаление смещенных признаков:

Использование весов важностей объектов на основе оценки коэффициента плотности

Заключение

Вам также понравится

обучения это система действий педагога в процессе преподавания обучаемого при усвоении учебного

зачем человеку волосы на руках и ногах

иммуносупрессанты что это такое простыми словами

Добавить комментарий Отменить ответ