by admin

Share

Data Scientist Функции, Обязанности, Доход, Обучение И Востребованность

В дословном переводе Data Science – это наука о данных. Она предполагает сбор, анализ и систематизацию так называемых “Big Data”, представляющих собой огромные объемы информации, получаемые изначально в неструктурированном виде. Ключевой смысл в определении понятия “Data Science” заложен именно в словах “огромный объем” и “отсутствие структуризации”. Для работы с такими данными применяют принципы математической статистики и машинного обучения. Специалист, выполняющий эту работу, называется Data Scientist. Именно он анализирует “Big Data” с целью предоставления максимально точного прогноза, на основании которого составляется прогнозная модель. Она является результатом работы Data Scientist. И в последующем на ее основании строятся алгоритмы.

Как выглядит рабочий день Data Scientist

Для лучшего понимания особенностей профессии Data Scientist расскажем о том, что представляет собой привычный день специалиста и в рабочий процесс в целом:
начинается он обычно с общения с коллегами, разбора и постановки приоритетных задач на день и будущее;
затем дата сайентист приступает к исполнению непосредственных обязанностей: написанию SQL-запросов и подготовке массивов информации к проработке методом машинного обучения;
на следующем этапе специалист пишет код прогнозируемой модели на Python и прогоняет полученные данные через нее;
тестирует модель, устраняет недочеты, анализирует результат и его соответствие поставленным задачам;
в течение дня дата сайентист держит связь с командой проекта и прежде всего с теми, кто будет применять полученную модель на практике.

Приведем пример. Задача, стоящая перед Data Scientist, может быть сформулирована так: “необходимо спрогнозировать спрос на коллекцию одежды сезона осень -зима определенного бренда”. Для ее решения специалист предпримет следующее:
соберет данные о продажах одежды за минувшие несколько лет;
выберет оптимальную модель, которая больше всего подойдет для такого прогноза;
определит метрики, позволяющие оценить ее качество максимально объективно;
напишет код модели;
применит алгоритм машинного обучения, основываясь на данных о продажах в прошлом;
получит значения прогноза и передаст их менеджерам проекта, которые при принятии решения в отношении будущего объема производства будут ими руководствоваться.

Что касается формы работы дата сайентист, то по статистике около четверти специалистов ведет деятельность удаленно. Как правило, это касается фрилансеров. Еще примерно треть комбинирует работу в офисе и дома. Остальные же трудятся в привычной для большинства форме – по адресу работодателя.

Data Scientist и Data Engineer, есть ли разница?

Нередко профессию Data Scientist путают и даже объединяют с Data Engineer, неверно полагая, что это одно и то же. Но на практике все не так. Data Engineer занимается обеспечением качественной инфраструктуры данных: он интегрирует, моделирует и оптимизирует их. Также этот специалист уделяет внимание оперативному контексту прикладных ПО в области аналитики и микросервисной архитектуре. То есть, Data Engineer разрабатывает данные, тестирует их, поддерживая инфраструктуру в должном состоянии посредством очистки, обработки и трансформации. А к Data Scientist данные попадают в относительно “чистом” виде.

У этих двух специалистов разные не только задачи, но и промежуточные цели. Да, оба стремятся сделать данные качественнее, доступнее. В то же время Data Engineers работает над созданием “конвейера” обслуживания алгоритмов автоматического формирования моделей (принципов машинного обучения). Data Scientist проверяет предложенные гипотезы в системе данных и пишет код. Он извлекает инсайты для формирования стратегии бизнеса, принятия оптимальных решений и применения алгоритмов. А инженер по данным работает над тем, чтобы повысить скорость и продуктивность деятельности своих коллег в лице аналитиков и дата сайентист.

Кто может стать Data Scientist и как приходят в профессию

Условно всех, кто приходит в профессию дата сайентист, можно разделить на 5 потоков:
в первый входят те, кто решает освоить профессию на базе уже имеющегося высшего образования (близкого к специальности) и выбирают профиль Data Scientist ввиду личной заинтересованности;
во второй поток стоит отнести уже задействованных в IT специалистов, желающих получить более прибыльную работу ( т. е., у них мотивация исключительно финансовая);
в третий поток входят состоявшиеся разработчики, уставшие от монотонной деятельности и ищущие перемен (их главная цель – получение новых интересных задач)
в четвертый – люди, пришедшие из других профессий либо еще недавние школьники, студенты;
и, наконец, к пятому потоку относятся те, к кому направление Data Science пришло само собой (это касается, например, биоинформатиков).

Нельзя сказать с уверенность, что без выраженного таланта освоить профессию дата сайентист нельзя. Скорее, человеку, имеющему склонность к техническим направлениям, будет просто легче учиться.

Есть и случаи входа в профессию людей без высшего образования (на базе общего среднего). И в этом нет ничего удивительного. Просто им пришлось пройти все стадии обучения, получив сначала знания и навыки в области математики и программирования, а затем освоив узконаправленную “базу”, необходимую будущему Data Scientist, на специализированных курсах.
Можно ли освоить профессию самостоятельно?
Теоретически человек может все. Вопрос только во времени. При обучении на курсах освоить профессию удастся в разы быстрее. Но если вы уверенно задались целью овладеть ею самостоятельно, то попробовать вполне можно. Но учтите: лишь немногие компании решатся сотрудничать или принять на работу в штат сотрудника-самоучку.

Что можно предпринять:
Начать следует с математики. Для старта серьезных знаний не понадобится, но в базовых с точки зрения науки тезисах и принципах нужно ориентироваться. Речь идет о дифференциале, производной, определителе матрицы, основах теории вероятности, математического анализа и других ключевых понятиях.
Как можно больше и чаще читать профессиональную литературу. Весьма полезными станут следующие книги: любой учебник по машинному обучению, “Математический анализ” Л. Берса, “Machine Learning: A Bayesian and Optimization Perspective” С. Теодоридиса, “Наука о данных” Д. Келлехера и Б. Тирни. Большинство книг, посвященных аналитике данных, изданы на английском языке, поэтому его знание является обязательным.
Изучить курс “Machine Learning Crash Course” от всем известной поисковой системы Google. В нем новичок в сфере аналитики данных найдет много полезного. Также стоит посетить один из сайтов платформы Google, который полностью посвящен искусственному интеллекту и методам машинного обучения.
Можно пройти бесплатные курсы математической статистики, в интернете их полно.
Затем нужно изучить основной инструмент дата сайенс, каковым является Python, после чего можно смело приступать к освоению алгоритмов машинного обучения. Последним посвящено немало бесплатных курсов проводимых в онлайн форме, например: курс от МФТИ, Гугл, собрание лекций от профессора Карнеги Меллона из массачусетского университета и другие.

После освоения теории важно научиться применять полученные знания на практике. Для этого можно воспользоваться платформой Kaggle и ее аналогами. На подобных площадках собрано много реальных задач, на которых самоучке можно и нужно потренироваться.

В целом, Data Scientist нужен везде, где требуется прогноз. Причем иногда при помощи этих специалистов создаются весьма неожиданные модели. Например, при помощи сервиса “А Roommate Recommendation” можно подобрать себе подходящего соседа в хостеле, а с использованием модели “Corrupt Social Interactions” в США выявляют факты коррупции в “Department of Building” (Департамент строительства).
Как может развиваться карьера специалиста
Ступени карьерного роста дата сайентист типичны для всей IT-сферы. Специалиста начального уровня называют “Junior”, среднего – “Middle”, а настоящего профи – “Senior”.

Для того чтобы начинающий Data Scientist стал аналитиком со статусом “Мидл”, ему необходимо набраться опыта, решив самостоятельно как минимум 2-3 проекта. Как правило, на это уходит несколько лет. А вот для получения статуса “Senior”, дата сайентисту придется трудиться еще как минимум 3-4 года. Специалист высшего уровня должен не только в совершенстве знать свою профессию, но и быть способным обучать младших коллег. Senior Data Scientist обычно выполняет функции руководителя проекта или даже целого отдела.
Востребованность профессии
Специалист по данным без работы уж точно не останется. По состоянию на сентябрь 2022 г. на одном из самых популярных порталов по поиску работы hh.ru размещено 233 вакансии с заголовком “Data Scientist”. Из них более половины – в Москве, 27 – в Санкт-Петербурге, остальные – в других регионах страны. Также специалистов по данным ищут и в странах СНГ: Белоруссии, Казахстане, Грузии и других государствах. Лидером же по количеству размещенных вакансий остается Россия.

Related Posts