открытые датасеты для машинного обучения

Топливо для ИИ: подборка открытых датасетов для машинного обучения

открытые датасеты для машинного обучения. image loader. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-image loader. картинка открытые датасеты для машинного обучения. картинка image loader.
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Компьютерное зрение

открытые датасеты для машинного обучения. image loader. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-image loader. картинка открытые датасеты для машинного обучения. картинка image loader.

Открытость данных для машинного обучения — это как бесплатное электричество для рынка электрокаров. Поэтому большой вклад в процесс получения новых датасетов вносят исследовательские группы, которые не гонятся за прямой финансовой выгодой. Так, международная группа исследователей, в которую вошли ученые из Стэнфордского университета, а также представители компании Yahoo и Snapchat, разработала новую базу данных Visual Genom и алгоритм оценки изображений, которые позволят системам искусственного интеллекта понимать, что происходит на снимках. Все изображения в базе Visual Genome маркируются таким образом, чтобы содержать информацию обо всех объектах на снимке, их особенностях и связях.

Ранее исследователи из Стэнфордского университета представили датасет ImageNet, который содержит более миллиона изображений, маркированных по содержанию представленного на снимке события. У многих компаний, создающих API для работы с изображениями, в REST-интерфейсах используются лейблы, подозрительно похожие на 1000-категорийную иерархию WordNet из ImageNet.

MIAS (Mammographic Image Analysis Society)

Датасет по мамограммам, на которых врачи могут с помощью алгоритмов распознавать раковые опухоли. Массив представляет собой реальные снимки груди с известными типами заболеваний.

Landsat-8 — это спутник дистанционного зондирования Земли, выведенный на орбиту в 2013 году. Спутник собирает и сохраняет многоспектральные изображения среднего разрешения (30 метров на точку). Данные Landsat-8 доступны с 2015 года вместе с некоторыми выборочными снимками 2013–14 годов. Все новые снимки Landsat-8 появляются каждый день буквально через несколько часов после их создания.

База данных рукописного написания цифр, имеющая подготовленный набор обучающих значений, в размере 60 000 изображений для обучения и 10 000 изображений для тестирования. Цифры, взятые из набора образцов Бюро переписи населения США (с добавлением тестовых образцов, написанных студентами американских университетов), нормализованы по размеру и имеют фиксированный размер изображения. Эта база является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибровки и сопоставления методов распознавания изображений.

Следующая ступень эволюции для тех, кто прошел рукописные цифры. Этот датасет включает в себя 74 000 изображений различных символов (алфавит, цифры и т.д.).

Данные биометрического распознавания (фронтальное изображение лица), полученные с помощью движка с открытым исходным кодом.

Номера домов из Google Street View. 73 257 номеров для обучения, 26 032 номера для тестирования и 531 131 несколько менее сложный образец, чтобы использовать в качестве дополнительных учебных данных.

Естественные языки

открытые датасеты для машинного обучения. 59d76f43a56cb596129693. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43a56cb596129693. картинка открытые датасеты для машинного обучения. картинка 59d76f43a56cb596129693.

Корпус данных веб-страниц объемом более 540 терабайт — состоит из более 5 миллиардов веб-страниц. Этот набор данных свободно доступен на Amazon S3.

Yelp — сайт для поиска на местном рынке услуг, например, ресторанов или парикмахерских, с возможностью добавлять и просматривать рейтинги и обзоры этих услуг. За долгие годы работы накопил огромное количество данных от пользователей сервиса. Набор данных включает в себя 4 700 000 отзывов на 156 000 компаний от более 1 000 000 пользователей.

Набор данных представляет собой коллекцию текста из более чем 100 млн словоупотреблений, извлеченных из проверенных Хороших и Избранных статей Википедии.

Этот набор новостных статей CNN содержит 120 000 пар вопросы + контекст/ответы. Вопросы написаны людьми на естественном языке. На вопросы могут отсутствовать ответы, а ответы могут быть многоязыковыми. Набор данных Maluuba разработан, чтобы помочь создать «умных» чат-ботов, которые могут поддерживать принятие решений в сложных условиях.

Базовые данные, состоящие из пар (вопросы + контекст/ответы), извлеченных из детских книг, доступных в рамках Проекта Гутенберг, направленного на создание и распространение электронной универсальной библиотеки. Проект, основанный в 1971 году, предусматривает оцифровку и сохранение в текстовом формате различных произведений мировой литературы — в основном это тексты, находящиеся в свободном доступе на всех популярных мировых языках. Для бесплатной загрузки доступно более 53 000 документов.

Датасет анализа тональности «комментариев» в Twitter. Содержит 1 578 627 твитов с указанием положительных и отрицательных настроений.

открытые датасеты для машинного обучения. 59d76f43c71f6824362538. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43c71f6824362538. картинка открытые датасеты для машинного обучения. картинка 59d76f43c71f6824362538.

Всеобъемлющий словарь звуковых событий. 632 класса аудиособытий и коллекция из 2 084 320 голосовых 10-секундных отрезков из видео на YouTube (более 5 тысяч часов аудиозаписей).

Датасет англоязычной речи, содержащий стенограммы 40 телефонных переговоров на английском языке. Данные 2000 HUB5 English сосредоточены на разговорной речи по телефону с конкретной задачей транскрипции речи в текст.

Аудиозаписи 1495 выступлений на TED с полной расшифровкой.

«Датасет» датасетов

открытые датасеты для машинного обучения. 59d76f43e040a882427339. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43e040a882427339. картинка открытые датасеты для машинного обучения. картинка 59d76f43e040a882427339.

Mldata (machine learning data set repository) — репозиторий набора данных для машинного обучения, содержащий более 800 общедоступных архивных наборов данных с рейтингами, представлениями, комментариями.

Крупнейший репозиторий реальных и модельных задач машинного обучения, ведущий свою историю с 1987 года. Содержит реальные данные по прикладным задачам биологии, медицины, физики, техники, социологии и других сфер, ставшие классическими для работы различных алгоритмов. Датасеты этого репозитория часто используются научным сообществом для эмпирического анализа алгоритмов машинного обучения. Включает интересные данные по текстам из спам-писем UCI’s Spambase, которые можно использовать в качестве платформы для обучения персонализированных спам-фильтров.

Датасеты для «Элементов статистического обучения», созданные под руководством профессора Стэнфордского университета Тревора Хасти, представляют собой наборы данных в различных категориях, таких как минеральная плотность костей скелета, страны, галактика, информационные данные по маркетингу, спам, почтовые индексы и многих других.

AWS предлагает несколько интересных датасетов, включая всю электронную почту Enron, синтаксические n-граммы Google Books, данные NASA NEX (информация о климате, геологии и состоянии мировой флоры объемом более 20 терабайт) и многое другое.

Эта платформа, где все пользователи могут обмениваться своими датасетами. У них более 350 датасетов и более 200 из них значатся в качестве рекомендуемых платформой.

Несколько сотен датасетов, классифицированных по различным категориям в разных областях. Увы, не содержит описания самих датасетов.

Проект data.world сам о себе говорит как о «социальной сети для людей с датасетами», но правильнее описать его как «GitHub для данных». Это место, где вы можете искать, копировать, анализировать и загружать датасеты. Кроме того, вы можете загрузить свои данные в data.world и использовать его для совместной работы с другими пользователями.

Одно из ключевых отличий data.world — это инструменты, которые они создали для упрощения работы с данными. Система поддерживает SQL-запросы для изучения данных и объединения нескольких датасетов, у них также есть SDK, упрощающий работу с данными в выбранном вами инструменте (подробно об этом можно прочитать в tutorial on the data.world Python SDK).

Разработчики часто забывают, что при создании новых ИИ-решений или продуктов самое сложное — не алгоритмы, а сбор и маркирование коллекции данных. Стандартные датасеты могут использоваться для валидации или в качестве отправной точки построения более специализированного решения.

Другое популярное заблуждение кроется в идее, что решение проблем, связанных с одним датасетом, равнозначно тщательному продумыванию всего своего продукта. Используйте эти датасеты для валидации или проверки своих идей, но не забывайте тестировать или прототипировать работу продукта, и добудьте новые, более достоверные данные, которые помогут отточить ваш продукт. Успешные компании, чей бизнес построен на данных, обычно уделяют много внимания сбору новых, проприетарных данных, позволяющих повысить производительность без увеличения рисков.

Источники (по ссылкам вы также найдете еще больше примеров интересных датасетов):

Источник

Топливо для ИИ: подборка открытых датасетов для машинного обучения

открытые датасеты для машинного обучения. image loader. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-image loader. картинка открытые датасеты для машинного обучения. картинка image loader.
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Компьютерное зрение

открытые датасеты для машинного обучения. image loader. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-image loader. картинка открытые датасеты для машинного обучения. картинка image loader.

Открытость данных для машинного обучения — это как бесплатное электричество для рынка электрокаров. Поэтому большой вклад в процесс получения новых датасетов вносят исследовательские группы, которые не гонятся за прямой финансовой выгодой. Так, международная группа исследователей, в которую вошли ученые из Стэнфордского университета, а также представители компании Yahoo и Snapchat, разработала новую базу данных Visual Genom и алгоритм оценки изображений, которые позволят системам искусственного интеллекта понимать, что происходит на снимках. Все изображения в базе Visual Genome маркируются таким образом, чтобы содержать информацию обо всех объектах на снимке, их особенностях и связях.

Ранее исследователи из Стэнфордского университета представили датасет ImageNet, который содержит более миллиона изображений, маркированных по содержанию представленного на снимке события. У многих компаний, создающих API для работы с изображениями, в REST-интерфейсах используются лейблы, подозрительно похожие на 1000-категорийную иерархию WordNet из ImageNet.

MIAS (Mammographic Image Analysis Society)

Датасет по мамограммам, на которых врачи могут с помощью алгоритмов распознавать раковые опухоли. Массив представляет собой реальные снимки груди с известными типами заболеваний.

Landsat-8 — это спутник дистанционного зондирования Земли, выведенный на орбиту в 2013 году. Спутник собирает и сохраняет многоспектральные изображения среднего разрешения (30 метров на точку). Данные Landsat-8 доступны с 2015 года вместе с некоторыми выборочными снимками 2013–14 годов. Все новые снимки Landsat-8 появляются каждый день буквально через несколько часов после их создания.

База данных рукописного написания цифр, имеющая подготовленный набор обучающих значений, в размере 60 000 изображений для обучения и 10 000 изображений для тестирования. Цифры, взятые из набора образцов Бюро переписи населения США (с добавлением тестовых образцов, написанных студентами американских университетов), нормализованы по размеру и имеют фиксированный размер изображения. Эта база является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибровки и сопоставления методов распознавания изображений.

Следующая ступень эволюции для тех, кто прошел рукописные цифры. Этот датасет включает в себя 74 000 изображений различных символов (алфавит, цифры и т.д.).

Данные биометрического распознавания (фронтальное изображение лица), полученные с помощью движка с открытым исходным кодом.

Номера домов из Google Street View. 73 257 номеров для обучения, 26 032 номера для тестирования и 531 131 несколько менее сложный образец, чтобы использовать в качестве дополнительных учебных данных.

Естественные языки

открытые датасеты для машинного обучения. 59d76f43a56cb596129693. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43a56cb596129693. картинка открытые датасеты для машинного обучения. картинка 59d76f43a56cb596129693.

Корпус данных веб-страниц объемом более 540 терабайт — состоит из более 5 миллиардов веб-страниц. Этот набор данных свободно доступен на Amazon S3.

Yelp — сайт для поиска на местном рынке услуг, например, ресторанов или парикмахерских, с возможностью добавлять и просматривать рейтинги и обзоры этих услуг. За долгие годы работы накопил огромное количество данных от пользователей сервиса. Набор данных включает в себя 4 700 000 отзывов на 156 000 компаний от более 1 000 000 пользователей.

Набор данных представляет собой коллекцию текста из более чем 100 млн словоупотреблений, извлеченных из проверенных Хороших и Избранных статей Википедии.

Этот набор новостных статей CNN содержит 120 000 пар вопросы + контекст/ответы. Вопросы написаны людьми на естественном языке. На вопросы могут отсутствовать ответы, а ответы могут быть многоязыковыми. Набор данных Maluuba разработан, чтобы помочь создать «умных» чат-ботов, которые могут поддерживать принятие решений в сложных условиях.

Базовые данные, состоящие из пар (вопросы + контекст/ответы), извлеченных из детских книг, доступных в рамках Проекта Гутенберг, направленного на создание и распространение электронной универсальной библиотеки. Проект, основанный в 1971 году, предусматривает оцифровку и сохранение в текстовом формате различных произведений мировой литературы — в основном это тексты, находящиеся в свободном доступе на всех популярных мировых языках. Для бесплатной загрузки доступно более 53 000 документов.

Датасет анализа тональности «комментариев» в Twitter. Содержит 1 578 627 твитов с указанием положительных и отрицательных настроений.

открытые датасеты для машинного обучения. 59d76f43c71f6824362538. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43c71f6824362538. картинка открытые датасеты для машинного обучения. картинка 59d76f43c71f6824362538.

Всеобъемлющий словарь звуковых событий. 632 класса аудиособытий и коллекция из 2 084 320 голосовых 10-секундных отрезков из видео на YouTube (более 5 тысяч часов аудиозаписей).

Датасет англоязычной речи, содержащий стенограммы 40 телефонных переговоров на английском языке. Данные 2000 HUB5 English сосредоточены на разговорной речи по телефону с конкретной задачей транскрипции речи в текст.

Аудиозаписи 1495 выступлений на TED с полной расшифровкой.

«Датасет» датасетов

открытые датасеты для машинного обучения. 59d76f43e040a882427339. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-59d76f43e040a882427339. картинка открытые датасеты для машинного обучения. картинка 59d76f43e040a882427339.

Mldata (machine learning data set repository) — репозиторий набора данных для машинного обучения, содержащий более 800 общедоступных архивных наборов данных с рейтингами, представлениями, комментариями.

Крупнейший репозиторий реальных и модельных задач машинного обучения, ведущий свою историю с 1987 года. Содержит реальные данные по прикладным задачам биологии, медицины, физики, техники, социологии и других сфер, ставшие классическими для работы различных алгоритмов. Датасеты этого репозитория часто используются научным сообществом для эмпирического анализа алгоритмов машинного обучения. Включает интересные данные по текстам из спам-писем UCI’s Spambase, которые можно использовать в качестве платформы для обучения персонализированных спам-фильтров.

Датасеты для «Элементов статистического обучения», созданные под руководством профессора Стэнфордского университета Тревора Хасти, представляют собой наборы данных в различных категориях, таких как минеральная плотность костей скелета, страны, галактика, информационные данные по маркетингу, спам, почтовые индексы и многих других.

AWS предлагает несколько интересных датасетов, включая всю электронную почту Enron, синтаксические n-граммы Google Books, данные NASA NEX (информация о климате, геологии и состоянии мировой флоры объемом более 20 терабайт) и многое другое.

Эта платформа, где все пользователи могут обмениваться своими датасетами. У них более 350 датасетов и более 200 из них значатся в качестве рекомендуемых платформой.

Несколько сотен датасетов, классифицированных по различным категориям в разных областях. Увы, не содержит описания самих датасетов.

Проект data.world сам о себе говорит как о «социальной сети для людей с датасетами», но правильнее описать его как «GitHub для данных». Это место, где вы можете искать, копировать, анализировать и загружать датасеты. Кроме того, вы можете загрузить свои данные в data.world и использовать его для совместной работы с другими пользователями.

Одно из ключевых отличий data.world — это инструменты, которые они создали для упрощения работы с данными. Система поддерживает SQL-запросы для изучения данных и объединения нескольких датасетов, у них также есть SDK, упрощающий работу с данными в выбранном вами инструменте (подробно об этом можно прочитать в tutorial on the data.world Python SDK).

Разработчики часто забывают, что при создании новых ИИ-решений или продуктов самое сложное — не алгоритмы, а сбор и маркирование коллекции данных. Стандартные датасеты могут использоваться для валидации или в качестве отправной точки построения более специализированного решения.

Другое популярное заблуждение кроется в идее, что решение проблем, связанных с одним датасетом, равнозначно тщательному продумыванию всего своего продукта. Используйте эти датасеты для валидации или проверки своих идей, но не забывайте тестировать или прототипировать работу продукта, и добудьте новые, более достоверные данные, которые помогут отточить ваш продукт. Успешные компании, чей бизнес построен на данных, обычно уделяют много внимания сбору новых, проприетарных данных, позволяющих повысить производительность без увеличения рисков.

Источники (по ссылкам вы также найдете еще больше примеров интересных датасетов):

Источник

Открытые датасеты для машинного обучения

Мы уже рассказывали о важности этапа подготовки данных (Data Preparation), результатом которого является обработанный набор очищенных данных, пригодных для обработки алгоритмами машинного обучения (Machine Learning). Такая выборка, называемая датасет (dataset), нужна для тренировки модели Machine Learning, чтобы обучить систему и затем использовать ее для решения реальных задач. Однако, поскольку в процессе обучения необходимо оценивать качество модели, различают несколько типов выборок. В этом материале мы расскажем, из чего состоит dataset, какие бывают датасеты и как их сформировать.

Что такое датасет для Data Mining и из чего он состоит

Dataset для машинного обучения – это обработанная и структурированная информация в табличном виде. Строки такой таблицы называются объектами, а столбцы – признаками. Различают 2 вида признаков [1]:

Признаковое описание характерно для задач классификации, когда имеется выборка – конечное множество объектов, для которых известно, к каким классам они относятся. Классовая принадлежность остальных объектов неизвестна. В процессе машинного обучения строится модель, способная классифицировать произвольный объект из исходного множества [2]. Практический смысл задач классификации состоит в предсказании возможных исходов на основе совокупности входных переменных, например, диагностика заболеваний, предварительная оценка эффективности месторождений полезных ископаемых, кредитный скоринг, распознавание речи, прогнозирование оттока клиентов (Churn Rate) и т.д.

В зависимости от варианта задачи классификации, целевой признак может выглядеть по-разному [1]:

Каким бывает dataset: типы выборок

Первичный набор исходных данных принято называть генеральной совокупностью. Процесс формирования выборок из генеральной совокупности называется порождение данных [3]. Выборка – это конечное подмножество элементов генеральной совокупности, изучив которое можно понять поведение исходного множества. Например, генеральная совокупность состоит из 150 тысяч посетителей сайта, а в выборку попали 250 из них.

Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Если все ее элементы одинаково случайно и независимо друг от друга распределены по исходному множеству (генеральной совокупности), выборка называется простой. Простая выборка является математической моделью серии независимых опытов и, как правило, используется для машинного обучения. При этом для каждого этапа Machine Learning необходим свой набор данных [3]:

Как сформировать выборку для Data Mining

Методы формирования обучающих и оценочных выборок зависят от класса задачи, решаемой с помощью машинного обучения [1]:

При соблюдении этих условий объемы обучающей и оценочных выборок могут существенно различаться. Например, размер валидационного датасета может составлять всего 10% генеральной совокупности. Главное в формировании выборок – ни в коем случае не объединять обучающий датасет и с оценочными (тестовым и валидационным), поскольку это грозит переобучением модели Machine Learning. В этом случае модель получит высокие оценки качества в процессе тренировки, но не покажет такого результата на реальных данных.

После того, как выборка сформирована, наступают следующие процессы CRISP-DM: очистка данных и работа с признаками: генерация, трансформация, нормализация и отбрасывание лишних переменных, чтобы исключить мультиколлинеарность факторов и понизить размерность модели Machine Learning. Об этом мы расскажем в следующих статьях.

открытые датасеты для машинного обучения. pr3 1. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-pr3 1. картинка открытые датасеты для машинного обучения. картинка pr3 1.Формирование выборок – начальный этап Data Preparation

Вся практика Data Preparation в нашем новом курсе для аналитиков Big Data: подготовка данных для Data Mining. Присоединяйтесь!

Источник

Крутые наборы данных для машинного обучения

Более 50 открытых наборов для ваших исследований

Oct 1, 2020 · 8 min read

Хорошее исследование в машинном обучении начинается с подходящего набора данных. Нет необходимости тратить целый вечер на создание собственного набора в MySQL или, что еще хуже, в Excel. В принципе, все что угодно — от статистики COVID-19 до заклинаний Гарри Поттера — можно найти в виде базы данных.

Список лучших агрегаторов баз данных МО

открытые датасеты для машинного обучения. . открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-. картинка открытые датасеты для машинного обучения. картинка .

В агрегаторах собраны тысячи баз данных, предназначенных для самых разных целей:

1. Kaggle

Kaggle ежедневно обновляется энтузиастами и содержит одну из крупнейших библиотек баз данных в интернете.

Kaggle — это платформа машин н ого обучения, управляемая сообществом. Она содержит множество учебных пособий, которые охватывают сотни реальных проблем МО. Конечно, качество данных может различаться, однако все они совершенно бесплатны. Также есть возможность загрузить в библиотеку свою собственную базу данных.

2. Dataset Search от Google

Dataset Search — это надежный источник информации для исследований. В нем все наборы данных отсортированы по:

Базы данных здесь загружаются различными международными организациями, такими как Всемирная Организация Здравоохранения, Statista и Гарвард.

3. Реестр открытых данных на AWS

В реестре открытых данных на AWS любой желающий может поделиться пакетом данных или найти тот, который ему нужен. А с помощью инструментов Amazon Data Analytics можно проводить исследования на основе найденных данных. Среди создателей этих баз данных: Data for Good от Facebook, Space Act Agreement от NASA и институт исследований космоса с помощью космического телескопа.

4. Открытые наборы данных Microsoft Azure

Открытые наборы данных Azure регулярно обновляются и доступны для разработчиков приложений и исследователей. Они содержат правительственные данные США, другие статистические и научные данные, а также информацию из онлайн-сервисов, которую Microsoft собирает о своих пользователях.

Кроме того, Azure предлагает пользователям набор инструментов, которые помогают создавать собственные облачные базы данных, переносить рабочие нагрузки SQL в Azure при сохранении полной совместимости с SQL Server и создавать управляемые данными мобильные и веб-приложения.

5. r/datasets

открытые датасеты для машинного обучения. 0*pTsjg20cQWT4I0Q. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-0*pTsjg20cQWT4I0Q. картинка открытые датасеты для машинного обучения. картинка 0*pTsjg20cQWT4I0Q.

В SubReddit DataSet любой желающий может опубликовать базы данных с открытым исходным кодом. Загляните туда, чтобы найти классный набор данных и выполнить с ним интересное исследование.

6. Репозиторий машинного обучения UCI

UCI предлагает более 500 различных наборов данных, которые охватывают такие темы, как банковский маркетинг, оценка автомобилей, диагностика рака легких и многое другое. Вы можете сортировать пакеты данных по:

7. Библиотеки CMU

Университет Карнеги-Меллона располагает собственной коллекцией общедоступных наборов данных, которые можно использовать для исследований. Там вы найдете подробные базы данных об американской культуре, музыке и истории, которые не предоставляют другие агрегаторы.

8. Открытые базы данных на Github

Это отличная коллекция наборов данных с открытым исходным кодом, разделенных по отраслям. Некоторые из библиотек, которые вы можете там найти будут упомянуты здесь позже.

Лучшие открытые наборы данных для машинного обучения и анализа

открытые датасеты для машинного обучения. 0*GYu7cMYcAWjZVTmK. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-0*GYu7cMYcAWjZVTmK. картинка открытые датасеты для машинного обучения. картинка 0*GYu7cMYcAWjZVTmK.

Доменные базы данных для настоящих энтузиастов машинного обучения:

Исследовательский анализ

Прежде чем изменить мир с помощью исследований по МО, стоит просто попрактиковаться. Вот некоторые наборы данных, которые можно применять для исследовательского анализа — изучения данных путем поиска закономерностей и аномалий, а также последующего использования этой информации для построения моделей МО.

Глубокое обучение

Глубокое обучение основано на использовании искусственных нейронных сетей, применяемых для решения задач. Вместо того, чтобы писать алгоритм для задачи, программист использует обучение и позволяет машине делать прогнозы самостоятельно.

Обработка изображений и распознавание объектов в системах компьютерного зрения

открытые датасеты для машинного обучения. 0*P4I0mu8K8uOH77MF. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-0*P4I0mu8K8uOH77MF. картинка открытые датасеты для машинного обучения. картинка 0*P4I0mu8K8uOH77MF.

Обработка естественного языка, преобразование текста в речь и генерация речи

Создание роботов и голосовых интерфейсов невозможно без речевых систем.

Аудио

открытые датасеты для машинного обучения. 0*qUVKZWWrp5B9oIvv. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-0*qUVKZWWrp5B9oIvv. картинка открытые датасеты для машинного обучения. картинка 0*qUVKZWWrp5B9oIvv.

Текст

Другие видео и аудио базы данных для глубокого обучения

Системы рекомендаций

открытые датасеты для машинного обучения. 0*92rehWlS4zu7wkvw. открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-0*92rehWlS4zu7wkvw. картинка открытые датасеты для машинного обучения. картинка 0*92rehWlS4zu7wkvw.

Системы рекомендаций жизненно важны для предприятий электронной коммерции, поскольку они содействуют предоставлению клиентам персонализированного опыта.

Отраслевые наборы данных

открытые датасеты для машинного обучения. . открытые датасеты для машинного обучения фото. открытые датасеты для машинного обучения-. картинка открытые датасеты для машинного обучения. картинка .

Невозможно охватить все области, где можно применять МО. Примеры ниже подскажут вам несколько идей:

Существует так много наборов данных, что возможности для исследований по машинному обучению поистине безграничны. Исследуйте Kaggle, Google Dataset Search и другие ресурсы из списка, чтобы найти то, что вас интересует.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *