что такое data science модель
Знакомимся с Data Science: от новичка до специалиста
Несколько лет назад Harvard Business Review назвал Data Scientist наиболее сексуальной профессией века. С тех пор её «сексуальность» только росла, а потребность в специалистах увеличивается по экспоненте. В 2016 году Data Scientist вошла в топ-25 лучших вакансий на территории Соединённых Штатов по версии Glassdoor. На Россию тенденция тоже распространяется, хоть и не в таких больших масштабах. Однако, потребность в квалифицированных кадрах всё же растёт.
реклама
Что такое Data Science – кто такой Data Scientist
Чтобы понять, кто такой Data Scientist, нужно сначала дать определение самой профессии. Называется она Data Science. В последнее время термин стал очень популярным, и вы часто можете встречать его, бороздя просторы всемирной паутины.
реклама
Так вот, Data Science – работа с большими данными. Отметим, что термин «большие данные» уже прочно укоренился, хотя изначально использовался английский вариант – Big Data. Большие данные представляют собой огромные объёмы неструктурированной информации, для обработки которой требуется математическая статистика и машинное обучение.
Специалист, который занимается этим, называется Data Scientist. Его задачей является анализ больших данных, на основе которых можно сделать прогноз в зависимости от поставленной задачи. В конченом счёте финальным продуктом Data Scientist’a является создание прогнозной модели – алгоритма для оперативного поиска наиболее подходящего решения поставленной задачи.
Вы могли не знать, но с результатами работы специалистов в сфере Data Science вы встречаетесь по несколько раз в день. Например, когда слушаете музыку в YouTube Music, Spotify или Deezer. В этих стриминговых сервисах алгоритмы, написанные дата сайентистами, подбирают композиции, наиболее соответствующие вашим вкусовым предпочтениям. Так же само рекомендуются видеоролики в соответствующих сервисах и списки пользователей, с которыми вы можете быть знакомы, в социальных сетях.
Где работает Data Scientist
реклама
Если вы не хотите применять свои умения только для того, чтобы помогать людям быстрее находить одноклассников и учить программное обеспечение рекомендовать к прослушиванию Eisbrecher после Rammstein – не переживайте. Есть ещё немало областей, в которых можно применить свои таланты.
Например, в транспортной компании Data Scientist позволяет найти оптимальный маршрут передвижения, а на производстве созданные модели могут помочь спрогнозировать сбои в работе. Страховым компаниям дата сайентисты помогают рассчитать вероятность страхового случая, а в сельском хозяйстве делают прогноз по урожаю и ищут способы наиболее эффективного использования с/х угодий. Кроме того, на базе алгоритмов в медицине оборудование может автоматически ставить диагнозы пациентам.
реклама
Несмотря на то, что специалистов в Data Science становится всё больше, количество высококвалифицированных кадров всё ещё не соответствует спросу на них. Это приводит к росту оплаты труда. Заработная плата зависит от опыта работы. Например, специалисты, которые уже имели дело с большими массивами данными, а в их арсенале есть глубокие знания и навыки построения математических моделей, могут получать в Москве свыше 100 000 рублей ежемесячно. Для дата сайентистов без опыта зарплата стартует примерно 70 000 рублей в столице Российской Федерации.
Само собой, российские зарплаты ни в какое сравнение не идут с американскими. Например, хороший специалист с опытом в Соединённых Штата может получать свыше 130 000 долларов в год, т.е. порядка 11 000 долларов в месяц.
Пройти курс обучения Data Science с нуля
На сегодняшний день при наличии большого желания расти в области анализа больших данных не составляет никакого труда пройти курсы по Data Science. В России есть масса возможностей на любой кошелёк и вкус. Например, программа GeekBrains, разработанная совместно с NVIDIA и «МегаФон», обучает Data Science с нуля.
Для прохождения курса студентам будет достаточно школьных знаний, а онлайн-университет обеспечит всеми необходимыми ресурсами и инструментарием. В рамках программы обучающиеся будут ознакомлены с нейронными сетями и технологиями машинного обучения.
Программа в GeekBrains подойдёт как начинающим аналитикам, предоставив толчок для карьерного роста, так и для практикующих специалистов, желающих перейти в более востребованное направление. Курс состоит из 262 часов обучающего контента, 534 часов практики, 2-4 еженедельных семинаров и гарантирует трудоустройство.
Обучение разделено на четверти. С октября по декабрь студенты занимаются изучением основ языка Python, осваивают операционную систему Linux, создают сервера в облачных сервисах AWS. Также в список целей входит обучение SQL.
Во второй четверти студенты продолжают изучать библиотеки Python для Data Science, а также начинают решать задачи по комбинаторике, изучают методы проверки статистических гипотез и знакомятся с особенностями открытых данных. В третьей четверти придётся уделить внимание математике. В течение трёх месяцев нужно детально изучить математические аспекты алгоритмов, которым находится применения в Data Science.
Последний этап первого года уделён машинному обучению, а его программа разработана совместно с «МегаФон». Студентам даётся три месяца, в течение которых нужно научиться решать бизнес задачи, применяя машинное обучение. Также в рамках четвёртой четверти обучения удастся изучить реализацию рекомендательных систем.
Второй год обучения начинается с изучения нейронных сетей. Студенты решают задачи ML с данными из социальных сетей и др., а также на практике знакомятся с Tensorflow, Keras и PyTorch. Наконец, во второй четверти второго года изучаются продвинутые архитектуры нейронных сетей, компьютерное зрение и нейролингвистическое программирование.
Заключение
В целом, Data Scientist – профессия, которая требует как теоретических знаний, так и практических навыков. Причём вряд ли вам удастся обойтись опытом лишь одной профессии. Чтобы освоить Data Scientist, придётся приложить немало усилий и времени, но в конечном счёте это должно будет окупиться сполна.
Первые полтора года опыта в профессии вы можете получить на курсе «Data Science с нуля». После прохождения которого вы также получите полную поддержку при трудоустройстве, начиная от помощи в составлении резюме до подготовки к собеседованию.
Кто такой Data Scientist?
Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.
Чем занимается Data Scientist?
Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.
Где нужен и какие задачи решает Data Scientist?
Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.
В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:
В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.
Пример задачи:
Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:
Что ему нужно знать?
Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.
Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.
Постановка Data Science задач и взаимодействие с бизнесом
Привет, Хабр. В этот раз снова о Data Science. Думаю, многим знакома методология CRISP-DM, о которой говорят на большинстве курсов, но вот про первый пункт (business understanding) информации достаточно мало, вот и зря, ведь он очень важный.
Поэтому в этой статье мы поговорим о взаимодействии с бизнесом и о том, какие обычно бывают проблемы и сложности в этом вопросе. Давайте разберем все на примере.
Итак, представьте, что к вам пришел представитель бизнеса и описал следующую ситуацию:
«Привет. Нам нужна твоя помощь. У нас есть система, которой мы автоматически списываем деньги с карт наших должников (что-то вроде Uber, который после поездки сам списывает нужную сумму с карты). Мы тут обнаружили, что у неё успешность списания около 10%, нас это совсем не устраивает, так как мы платим за каждую попытку. Нам нужно сделать успешность списания около 30% минимум. Сделаешь?»
Ух, как много всего в нескольких предложениях, сразу и не понять.
Тут мы столкнулись с первой задачей – понять, что вообще нужно
После долгого обсуждения стало ясно, что процент успешности считается как количество успешных/количество неуспешных списаний в день, что собственно и нужно увеличить. Далее обнаруживается, что сама система работает очень сложно: делает много списываний по клиенту в день, на разные суммы, сильно зависит от дня (в дни зарплаты пытается снять чуть ли не каждый час со всех просроченных клиентов) и вообще сложно-моделируема.
Окей, хотя бы теперь мы это знаем, но встаёт вопрос с точки зрения Data Science – какая же должна быть целевая переменная?
Можно предсказывать наличие хоть какой-то суммы на счету, можно предсказывать наличие суммы задолженности или какой-то процент от суммы задолженности (ведь сумма у каждого разная, это тоже нужно учитывать), можно считать успешность каждой транзакции как бинарную 1 или 0.
Важно уточнить целевую переменную с заказчиком
Хорошо, допустим, мы поняли, что хотим предсказывать успешность каждого списывания. С какими проблемами мы можем столкнуться в данном случае?
Ну, например, мы можем заметно снизить количество ежедневных списаний и как следствие количество денег, которое собираем каждый день. Что еще? Имея такую целевую переменную, мы увеличим процент успешности, но никак не повысим количество списаний, и вполне возможно общую сумму списаний — об этом очень важно знать всем стейкхолдерам. Все эти вопросы нужно задавать до начала моделирования, а также узнать ожидаемые результаты.
Не забывайте уточнить ожидаемые результаты и возможные риски
Поняв, наконец, все возможные риски и выбрав целевую переменную можно приступить к сбору данных, их обработке и моделированию. По этим вопросам можно написать еще много статей, поэтому сразу перейдём к результатам моделирования и их бизнес интерпретации.
Допустим, вы построили модель и хотите рассказать бизнесу о её результатах, показывая прекрасную ROC или PR-кривую и говоря, как сильно это улучшит процент успешности и вообще весь бизнес в целом. Но вот проблема – бизнес не знает, что такое ROC-кривая, и что такое PR-кривая тоже не знает. Обычно в таком случае хорошо помогает confusion matrix. В Python её очень легко сделать библиотекой scikitplot.
Далее можно, например, сделать предсказания по новому месяцу, а потом объяснить, сколько по матрице у нас будет ошибок первого и второго рода (показывая прямо в количестве клиентов) или даже объяснить, что означают эти пресловутые Precision и Recall. Очень наглядно и понятно.
Выбор cut-off и подсчёт эффективности модели
Следующим пунктом обычно встает вопрос: «А сколько мы получим денег от внедрения этой модели?». И теперь самое время приступить к выбору оптимального порога отсечения.
Порогом в данном случае называется вероятность (predict_proba вам в помощь), выше которой мы говорим, что наша целевая переменная равна 1, а ниже – 0. Обычно этот порог равен 0.5, однако это не всегда соответствует максимальной прибыли и сильно зависит от цен ошибок первого и второго рода. В нашем случае мы знаем, что, если:
Для поиска оптимального cut-off мы берем тестовый месяц и пытаемся найти порог, который принесёт нам больше всего денег. Сделать это можно простой прогонкой различных значений cut-off в питоне или даже solver’ом Excel. Но в данном кейсе мы забыли учесть еще одну важную вещь – если мы не делаем списание, у клиента есть вероятность (в нашем случае около 30%), что он отдаст деньги сам, что тоже необходимо учитывать.
Как вы видите, даже в простой модели и обычной на первый взгляд задаче у нас нашлось множество пунктов, забыв учесть которые мы бы получили совершенно другие результаты.
Все этапы выше описаны для этого конкретного случая и могут сильно различаться в зависимости от задачи, но всё же попробуем выделить основные этапы, которым нужно следовать при взаимодействии с бизнесом:
Data Science для начинающих: обзор сферы и профессий
Давайте разберёмся, что представляет из себя Data Science и как построить карьеру в сфере работы с данными.
Что такое Data Science
Data Science — наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат. Преобразование включает в себя визуализацию, работу со статистикой и аналитическими методами — машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.
Начнём с определения терминов.
Искусственный интеллект — обучение машин «думать» для упрощения рутинных процессов и освобождения людского ресурса для творческих задач. Используется в персонализации, цифровых двойниках, имитации человеческого мышления, алгоритмах-игроках.
Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, ИИ в большинстве областей ещё не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных — две стороны одной медали.
Руководитель факультета «Аналитика и Data Science» в Нетологии
Машинное обучение (Machine learning, ML) — создание инструментов для извлечения знаний из данных. Это рекомендательные системы, предсказательные (предиктивные) алгоритмы, распознавание образов, перевод картинок в текст, синтез текстов. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумлёнными данными.
Глубокое обучение — создание многослойных нейронных сетей в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. «Глубину» обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.
Используется в дип-фейках, «масках» в приложениях, высокоточных автопилотах, синтезе изображений, голоса и звука.
Data Science — понимание и придание смысла данным, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления используют некоторые методы машинного обучения и Big Data — облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
Применяется для автоматизации, ускорения исследований, моделирования. Обеспечивает сочетание разных подходов и математически доказанную значимость в принятии решений.
Big Data (Большие данные) — совокупность подходов к огромным объёмам неструктурированных данных. Это данные соцсетей, медиатеки, стриминг данных, банковские транзакции, события в MMORG.
Специфика сферы — инструменты и системы, способные выдержать высокую нагрузку.
Как и где зарабатывать на данных
Самая обширная сфера — извлечение пользы из данных. Она охватывает:
Из чего состоит аналитика данных
Сбор. Поиск каналов, где можно собирать данные, и способов их получения.
Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.
Анализ. Изучение данных, подтверждение предположений, выводы.
Визуализация. Представление в таком виде, который будет простым и понятным для восприятия человеком — в графиках, диаграммах.
Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.
Кем можно работать в аналитических проектах
Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140‒190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, ещё больше — 1,5 миллионов человек. Прогнозы подтвердились: специалистов действительно не хватает.
Аналитика
и Data Science
Карьерная траектория и карьерный трек
На каждом из этапов необходимо разное количество инструментов и навыков.
Есть роли и треки со схожими компетенциями (можно развиваться в одном направлении, а потом идти глубже или свернуть в другую сторону).
С точки зрения обучения это означает выкладку дорожки из кирпичиков знаний и умений – мы называем это модулями.
Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в базы данных (БД):
Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:
Больше всего карьерных треков у ML Engineer — по сути, это разработчик алгоритмов. Это нейросети, голосовые помощники, Object detection — сфера безопасности, предсказание спроса, предиктивная аналитика, распознавание объектов. Среди более сложных направлений: GAN — работа с изображениями, RL — игровые стратегии, геймдев, Black-box AI — коробочные решения для искусственного интеллекта.
Как найти своё направление
Каждый профессионал уникален, ведь у всех нас разный бэкграунд, опыт и образование.
Data Science
Data Science (наука о данных) — это раздел компьютерной науки, связанный с данными: их сбором, обработкой, анализом и поиском эффективных решений на его основе. Специалистов в этой области называют дата-сайентистами, они работают в науке и в бизнесе.
Дата-сайентисты собирают неструктурированные данные, анализируют их с помощью математических моделей и делают из них выводы. Цели и задачи Data Science: подтверждение гипотез, прогнозирование, нахождение закономерностей, предложения изменений в бизнес-процессах.
Data Science — это междицсиплинарная область: дата-сайентистам нужно знать математику и статистику, программировать и работать с базами данных, понимать устройство бизнеса.
Читайте также: Честный отзыв о профессии Data Scientist, рассказ о карьерном пути и советы для новичков
Что такое Data Science простыми словами: У банка есть миллионы пользователей, которые каждый день делают покупки, оплачивая их смартфоном или картами. Данные о покупках можно собрать и проанализировать. Результаты анализа улучшат работу банка, повысят его выручку и дадут клиентам полезные персональные рекомендации. Например, скидки от партнеров частым покупателям спорттоваров или туристическую страховку для тех, кто часто делает покупки за границей.
Data Science — молодое направление. Впервые термин появился в научной среде в 2001 году, а распространился в 2008 году благодаря ведущим специалистам по данным в компаниях Facebook и LinkedIn. К тому времени IT-гиганты привлекли к своим продуктам сотни миллионов пользователей и поняли, что большие данные об их поведении могут приносить пользу бизнесу и интернет-индустрии в целом.
Почти сразу же Data Science обрел статус самого перспективного направления в IT. Еще в 2009 году экономист Google Хэл Вариан заявил, что способности для работы с данными станут чрезвычайно важным навыком в ближайшие десятилетия.
Так и происходит: мировой рынок компаний, занимающихся Data Science, растет в среднем на 12% в год. Только в 2020 году спрос на специалистов этого направления вырос на 50%.
Как устроена наука о данных?
Порядок работы с данными в Data Science можно изобразить в виде цикла из пяти этапов:
Профессии, связанные с Data Science
Помимо дата-сайентистов, есть и другие профессии, связанные с большими данными.
У самих дата-сайентистов есть специализации, например Data Mining (глубинный анализ данных), компьютерное зрение, синтез и распознавание речи, системы рекомендаций и т.д.
Data Science с нуля
За 12 месяцев вы пополните портфолио рекомендательной системой и нейросетями, примете участие в соревнованиях на Kaggle и в хакатонах. Дополнительная скидка 5% по промокоду BLOG.
Основные термины
Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.
Читайте также: Big Data: что это и где применяется?
Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.
Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.
Tree-based-алгоритмы — использование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.
Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.
Feature Engineering (конструирование признаков) — процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).
Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.
Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.
Где применяется наука о данных
Прогнозирование спроса
Компании имеют большие массивы данных о продажах своих товаров и услуг за прошлые годы. Анализ этих данных с помощью Machine Learning поможет найти закономерности, спрогнозировать будущий спрос и перестроить бизнес-процессы под нужное количество товаров и услуг.
Пример: эта модель помогает производителям натурального газа прогнозировать его поставки.
Система рекомендаций
Интернет-сервисы имеют данные о просмотрах каждым пользователем их контента: видео, фильмов, музыки, статей или страниц товаров и услуг. Машинное обучение может проанализировать предпочтения, чтобы предлагать им наиболее подходящий контент.
Пример: модель RealStateRecommender предлагает посетителям сайта с недвижимостью пять лучших предложений на основе их поисковых запросов. Она использует алгоритмы кластеризации запросов — то есть объединяет данные в однородные группы.
Динамическое ценообразование
В интернет-торговле и системах бронирования есть данные о продажах разных товаров и услуг разным категориям покупателей. Data Science помогает найти оптимальные цены на свои товары и услуги, которые помогут увеличить выручку.
Пример: модель динамического ценообразования в отелях.
Поиск аномалий
Data Science помогает компаниям находить ошибки в данных бизнес-процессов и отчетности. Это помогает вовремя заметить неточности и аномальные изменения данных, понять их причину и изменить работу компании.
Пример: модель fin-stmt-anom находит ошибки в бухгалтерских документах перед подачей отчетности.
Чат-боты
Обучение чат-ботов с помощью машинного обучения помогает быстрее и точнее отвечать на вопросы клиентов. Это помогает решить большинство их проблем и снизить нагрузку на колл-центр.
Пример: модель машинного обучения LegalTech помогает юридическим компаниям оценивать длительность дел и стоимость услуг и получать подтверждения об этапах работы от клиента через Telegram-бота.
Будущее Data Science
У Data Science большие перспективы, и вот почему:
Экспоненциальный рост объема данных в мире
Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.
Рост рынка Data Science
Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.
Развитие технологий искусственного интеллекта
Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».
Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.
Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.
С чего начать обучение Data Science самостоятельно
Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.
Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.
Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.
Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.
Читайте также: Что выбрать, чтобы стать дата-сайентистом: самообразование, онлайн-курсы или вуз?
Вот несколько полезных ссылок для новичков: