Для проекта по обработке данных в Udacity Data Analyst Nanodegree нам предоставляется возможность пройти процесс анализа данных после прохождения курса. Это второй, который фокусируется на процессе обработки данных, который включает в себя; сбор данных, оценка данных и очистка данных. В этом проекте перед нами стояла задача загрузить данные из Audacity вручную и программно, используя запросы из библиотеки запросов python, а также собрать данные из Twitter API, очистить и проанализировать их, чтобы сообщить о наших выводах. Собранные данные были получены из учетной записи Twitter «WeRateDogs».

Всего я нашел и устранил 12 проблем с качеством и аккуратностью данных.

Этот пост в блоге предназначен для обмена идеями и визуализациями, полученными из моих оспариваемых данных.

Вопрос 1. Какие источники или устройства используются для создания этих твитов?

Ответ. Проанализировав набор данных, я обнаружил, что 98 % твитов были опубликованы из приложения Twitter для iOS на iPhone, а остальные — из веб-приложения Twitter и Tweetdeck.

Вопрос 2. О каких самых популярных и наименее популярных породах собак идет речь?

Ответ: Из своих наблюдений я обнаружил, что золотистый ретривер имеет наибольшее количество пород собак в наборе данных, за ним следует лабрадор ретривер. Кроме того, восемь пород собак связаны как породы собак с наименьшим количеством собак (1).

Вопрос 3. Какая из собак является любимой у людей, т. е. собака с наибольшим количеством ретвитов и лайков?

Ответ: Больше всего лайков и ретвитов получила собака породы лабрадор-ретривер, набравшая 144 995 лайков и 70 806 ретвитов. Я искал твит и, к сожалению, это было видео, однако я сфотографировал его.

В заключение проект обработки данных был одним из самых сложных проектов, которые я когда-либо делал. Несмотря на то, что на протяжении всего этого было несколько ограничений, это было захватывающее учебное путешествие. Несмотря на трудности, это также было познавательно и весело. Я опубликую его на своих LinkedIn и GitHub после того, как правильно настрою свой профиль на GitHub. Спасибо за чтение, и я хотел бы услышать, что вы думаете об этом!