Что такое методология науки о данных?

Методологию можно определить как систему методов, используемых в той или иной области изучения или деятельности. Это метод исследования концепции фокусных точек. Теперь давайте посмотрим на «методологию» с точки зрения науки о данных.

Вам дается какая-то проблема. Каким должен быть ваш подход?

› Какую проблему вы пытаетесь решить?

› Как вы можете использовать данные, чтобы ответить на вопрос?

Теперь поработайте с данными:

› Какие данные вам нужны для решения проблемы?

› Откуда поступают данные? Определите все источники данных и узнайте, как вы их получите?

› Проверьте, помогут ли собранные вами данные решить проблему?

› Какую дополнительную работу вы должны выполнить, чтобы манипулировать данными и работать с ними?

Заключительная часть: получение ответов

› Каким образом можно визуализировать данные, чтобы получить требуемый ответ?

› Действительно ли модель, разработанная на основе такого подхода, отвечает на наши вопросы или ее необходимо скорректировать?

› Можете ли вы использовать Модель для успешного решения проблемы?

› Можете ли вы получить конструктивную обратную связь, отвечая на вопрос?

Вышеизложенное можно резюмировать следующим образом:

  • Понимание бизнеса
  • Аналитический подход
  • Требования к данным
  • Сбор данных
  • Понимание данных
  • Подготовка данных
  • Моделирование данных
  • Оценка
  • Развертывание
  • Обратная связь

Вышеизложенное является основным подходом в методологии науки о данных. Теперь проанализируйте это на небольшом примере.

Я выберу Классификацию электронной почты в качестве моей темы для подачи заявки на методологию науки о данных.

1. Деловое понимание

Получаем в наш почтовый ящик. Мы получаем письма от наших друзей, подписки и так далее, но иногда мы получаем много подозрительных писем, пытающихся украсть наш пароль, предлагать скидки и запрашивать личную информацию для выигрыша приза.

Можем ли мы автоматически обнаруживать такие спам-письма и помещать их в папку для спама?

2. Аналитический подход

Здесь мы должны классифицировать письма, которые мы получаем по нашему идентификатору электронной почты, на спам и не спам. Итак, основной вопрос заключается в том, является ли полученная почта спамом или нет. Итак, мы будем использовать модель классификации, поскольку она дает нам ответ «да» или «нет». Если результат положительный, письмо будет отправлено в папку со спамом, а если нет, оно будет доставлено как обычное письмо в наш почтовый ящик.

3. Требования к данным

Для этого нам нужны все письма, которые мы получили. Таким образом, идентификация данных выполняет этап требований к данным методологии науки о данных.

4. Сбор данных

Теперь, когда мы определили наши требования к данным, мы начнем собирать данные для него. Мы будем собирать всю почту из наших почтовых ящиков. Но этого недостаточно. Мы будем собирать больше образцов писем от наших друзей или из Интернета для увеличения наших данных. Собранные таким образом данные могут быть структурированными, неструктурированными или полуструктурированными.

5. Понимание и подготовка данных

Теперь, когда у нас есть данные, мы поймем их содержание, получим доступ к их качеству, обнаружим любые предварительные сведения и определим, нужны ли дополнительные данные для заполнения пробелов.

Мы видим, что некоторые письма намеренно содержат орфографические ошибки, такие как med1icine, w4tches и так далее. В некоторых письмах есть пунктуационные ошибки. Некоторые предлагают нам акции и скидки. Некоторые письма запрашивают у нас личную информацию и пароли. Все эти письма выглядят подозрительно и могут быть спамом.

Затем мы видим попытку установить отношения между ними. Мы строим гистограмму и другие графики, чтобы увидеть, как распределяются переменные. Смотрите их максимум, минимум, среднее значение и другие параметры. Мы видим, что слово «скидка» встречается как «скидка», «скидка» и «скидка».

Должны ли мы рассматривать их как единое целое. Мы должны решить и начать подготовку данных соответственно.

Подготовка данных, также известная как очистка данных, требует от 70% до 90% времени нашего проекта и, если все сделано правильно, даст нам правильную модель. Мы удаляем все письма, которые дублируются, то есть имеют одинаковое содержание.

Мы рассматриваем все письма, содержащие такие слова, как скидка, скидки, скидка и дисконтирование, как одно целое. Мы разрабатываем функции и добавляем или удаляем столбцы в соответствии с нашими выводами.

После того, как мы удалили, добавили и выполнили все остальные операции с нашими данными, мы объединяем все данные в одну таблицу, которая является фреймом данных. На этом наша подготовка данных завершена.

6. Моделирование и оценка

У нас есть различные алгоритмы и библиотеки, которые мы можем загрузить, установить и построить модели с помощью нашего фрейма данных. Попробуйте разные алгоритмы и выберите тот, который дает наибольшую точность. Чтобы добиться этого, вы должны понимать вопрос, для которого вы решаете задачу, в нашем случае это спам почта или нет. Затем выберите аналитический подход или метод для решения проблемы.

Затем мы делаем оценку нашей модели, то есть проверяем ее качество. Мы разделили наш набор данных на обучающий набор и тестовый набор. Мы строим нашу модель, используя обучающую выборку. Затем мы протестируем модель на тестовом наборе и сравним спам-письма, предсказанные моделью, с фактическими спам-писем.

7. Развертывание

Это фактическое применение модели. Мы развертываем нашу модель, чтобы классифицировать почту как спам и не спам, и спам-почта попадает в папку со спамом.

8. Обратная связь

Это проверяется клиентом, дает ли модель правильный результат или нет. Если он дает правильные результаты, мы настраиваем его для клиента. Если это не дает нужного результата, мы снова начинаем процесс моделирования с обратной связью, предоставленной клиентом. Если нам требуется собрать новые данные, мы их собираем. Это повторяющийся процесс, который продолжается до тех пор, пока клиент не получит правильный результат.

Надеюсь, вы узнали и поняли методологию науки о данных.

Первоначально опубликовано наhttps://www.readsmarty.com/2020/07/what-is-data-science-methodology-emails.html