«Большие данные» — это широкая область, охватывающая как минимум пять дисциплин и три должности. Хотя наука о данных, инженерия данных и аналитика данных определенно пересекаются в карьере, между ними есть важные различия. Вот разбивка.

Размышляя о современной индустрии данных, ласково называемой «большие данные», легко свести всех «людей данных» к универсальному термину «ученый, работающий с данными». Но реальность такова, что существует множество смежных дисциплин, необходимых для решения проблем больших данных на уровне предприятия.

Если ненадолго отложить в сторону администраторов баз данных (часто называемых администраторами баз данных), у нас все еще остаются аналитики данных, инженеры данных и специалисты по данным. Хотя отдел кадров не всегда может знать реальную разницу между этими связанными ролями в компании, они сильно различаются с точки зрения повседневных обязанностей и опыта.

В чем разница между аналитиком данных и инженером данных?

Аналитики данных обычно работают в сфере хранилищ данных с помощью таких инструментов, как Snowflake, Amazon Redshift и Google BigQuery. Как правило, они отвечают за перемещение структурированных данных, аккуратно организованных в системах учета, в высокопроизводительные хранилища данных и специализированные витрины данных для создания аналитических отчетов и отчетов бизнес-аналитики (BI).

Для сравнения, дата-инженеры, как правило, назначаются на проекты «инженерии данных» и «потоковой передачи событий». Роль инженера данных концептуально аналогична роли аналитика данных, но основное отличие состоит в том, что инженер данных, скорее всего, специализируется на обработке полуструктурированных, неструктурированных и потоковых данных (например, из событий в реальном времени). чем «чистый» аналитик данных.

Чтобы обрабатывать данные, которые могут иметь повторяющиеся или неполные записи, инженер данных должен полагаться на такие инструменты, как Airflow, dbt, Fivetran или Airbyte для извлечения, преобразования и загрузки (ETL). данные. (На самом деле многие инженеры данных теперь предпочитают загружать данные перед их преобразованием, что приводит к процессу ELT.) Эти сложные процессы часто частично выполняются вручную и могут включать озера данных и механизмы потоковой обработки данных — программное обеспечение, такое как Apache Spark, Кафка и Amazon Kinesis.

В чем разница между Data Scientist и Data Engineer?

«Наука о данных» и «машинное обучение» (МО) — две последние дисциплины, связанные с данными, которые мы рассмотрим, и эти проекты, как правило, выполняются людьми с такими титулами, как «ученый по данным». Специалисты по данным, как и инженеры данных, часто привыкли работать со всеми типами данных, поэтому специалисты по данным могут использовать те же озера данных и различные инструменты подготовки данных, что и инженеры данных. Тем не менее, специалисты по данным обычно преобразуют свои данные с конечной целью решения проблем науки о данных или машинного обучения, в то время как инженеры данных, как правило, больше заинтересованы в создании воспроизводимых инженерных процессов для поддержки других частей своей организации.

По сравнению с аналитиками данных, которые могут иметь дело с большим количеством разовых отчетов для бизнес-аналитики и конкурентного анализа, специалисты по данным, как правило, хотят делать статистические выводы (чтобы подтвердить или опровергнуть гипотезу) или помогают создавать приложения ML (например, ML). распознавание изображений). Это означает, что ученые, работающие с данными, любят использовать такие программы, как Scikit-learn, TensorFlow или PyTorch, для работы с данными и машинным обучением. Эти платформы, как правило, более специализированы для обработки данных или рабочих процессов машинного обучения, чем соответствующие инструменты для обработки данных, которые могут быть не в состоянии, например, поддерживать выбор, обучение и оценку модели данных машинного обучения.

Между тем, инженеры данных обычно берут данные из хранилищ данных, киосков данных и аналитических отчетов; преобразовывать эти данные в различные форматы; а затем передать его специалистам по данным или аналитикам данных. Скорее всего, они запачкают руки программной настройкой и конфигурацией в рамках сложных проектов по обработке данных, на выполнение которых могут уйти месяцы. Встроенная аналитика продукта для компании, предлагающей программное обеспечение как услугу (SaaS), — это пример проекта, для которого обычно требуется команда инженеров по обработке данных. Этот тип проекта с меньшей вероятностью вовлечет специалистов по данным, если только нет необходимости в статистическом анализе или функциях на основе ML.

Различия между аналитиками данных, инженерами данных и учеными данных

Мы видели, что эти три карьерных пути в сфере «больших данных» связаны и во многом пересекаются, но основные различия между инженерами данных, учеными и аналитиками сводятся к двум вещам: 1) типичные проблемы, которые они пытаются решить; решить и 2) их выбор инструментов для этого.

Аналитик данных, скорее всего, будет связан с проблемами «бизнес-аналитики» (BI), что означает, что ему было поручено создать действенную BI для компании. Хотя они часто используют инструменты для обработки данных и, вероятно, легко настраивают хранилища данных, аналитики данных организации, вероятно, настраивают аналитические отчеты для конкретных команд через витрины данных. Они могут быть прикреплены к командам бизнес-аналитиков или к отдельным функциям организации (например, маркетингу), или они могут регулярно отчитываться перед исполнительным руководством.

Между тем, инженер данных — это тот, кто обычно немного менее сосредоточен на отчетах BI и вместо этого отвечает за очистку и обработку сложных данных. Они могут использовать более «программные» подходы (например, инженеры-программисты) и, вероятно, им удобно выполнять действия вручную для извлечения, загрузки и преобразования данных (ELT). Инженеры данных, вероятно, знакомы с разницей между хранилищем данных и озером данных, и они часто участвуют в инициативах на уровне платформы, связанных с архитектурой, управляемой событиями, для потоковой аналитики в реальном времени.

И последнее, но не менее важное: специалисты по данным, вероятно, имеют больший исследовательский опыт, по крайней мере, благодаря формальному обучению и образовательной программе. Эксперты в области машинного обучения (МО) и статистического анализа гораздо чаще используют термин ученый по данным, хотя многие из них имеют такие должности, как статистики (статистические аналитики), информатики (информатики) или инженеры МО. Учитывая, что машинное обучение теоретически может быть применено практически к любой мыслимой проблеме, специалисты по данным невероятно востребованы, поскольку организации пытаются оптимизировать свой бизнес и приносить пользу клиентам. Но обычно они не предоставляют BI вверх по цепочке генеральному директору.

Заключение: аналитика данных, наука о данных и инженерия данных

Хотя должностные инструкции для каждой дисциплины, связанной с данными, далеко не высечены на камне, полезно понимать сходства и различия между наукой о данных, проектированием данных и аналитикой данных.

В целом существует континуум между статистическим машинным обучением, с одной стороны — «чистой» наукой о данных и машинным обучением — и одноразовой ручной отчетностью для поддержки принятия исполнительных решений, с другой — «чистой» аналитикой данных и бизнес-аналитикой. Инженеры данных находятся где-то посередине, и они часто глубоко вовлечены в разработку программного обеспечения и архитектуру продукта.

В больших данных нет жестких и быстрых правил, и дисциплины, связанные с данными, меняются быстрее, чем любая другая часть технологического пространства, поскольку размер данных продолжает расти. Если вы не совсем уверены, каков чей-либо опыт в науке о данных, аналитике или инженерии, просто спросите их о типах проектов, над которыми им нравится работать, и об инструментах, которые они предпочитают использовать.

Вы также можете спросить, предпочитают ли они специфику (например, разработку архитектуры программного обеспечения для потоковой передачи событий) или им в целом удобно работать с широким спектром проектов, связанных с данными. В конце концов, имейте в виду, что должности в Big Data означают одновременно и много, и ничего; они могут быть полезны для углубления вашего понимания, но их не следует использовать для того, чтобы загнать кого-то в угол.

Удачного кодирования! 🧑‍💻🎧👩‍💻🎶👨‍💻

Доктор. Дерек Остин — автор книги Программирование карьеры: как стать успешным программистом с шестизначным доходом за 6 месяцев, которая теперь доступна на Amazon.