Публикации по теме 'hadoop'


Лучшие отраслевые практики # DataScience в # Здравоохранении
Технологическая основа информационных систем здравоохранения имеет новую парадигму для быстрой и ускоренной обработки медицинских данных, поступающих из разрозненных источников данных из целостной системы здравоохранения, включающей инструменты диагностики, картирование ДНК, точную медицину, биоинформатику, медицинские устройства, Интернет медицинских вещей, биофармацевтику. , неврология, сердечно-сосудистая система, открытие лекарств и разработка лекарств. Чтобы превзойти проблемы..

Elastic Container Service - когда документации AWS недостаточно
Elastic Container Service - когда документации AWS недостаточно Как запустить приложение Hadoop в кластере ECS Недавно, чтобы создать инфраструктуру для нашего нового продукта Shunting Yard , мы, команда разработчиков платформы больших данных Hotels.com, имели возможность поработать над Terraform, Docker и AWS Elastic Container Service. Задача заключалась в объединении этих трех инструментов для автоматизации создания инфраструктуры. Это оказался отличный опыт обучения, и я решил..

Эксперименты с Hive 2 LLAP
В последней версии Hortonworks Data Platform (HDP) 2.6.2 у нас появился новый механизм SQL для обработки данных через HDFS, то есть Hive 2 LLAP. Функциональность Live Long and Process (LLAP) была добавлена ​​в Hive 2.0. С течением времени в Hive были внесены существенные улучшения со стороны Tez и оптимизации затрат (CBO), а теперь с помощью LLAP он перешел на новый уровень. На следующей диаграмме показана его архитектура. В LLAP нам нужны демоны LLAP, работающие в кластере YARN...

Мой опыт работы с реальным машинным обучением в Couture AI
Середина июля, и моя летняя стажировка в Couture AI., Бангалор подошла к концу. Оглядываясь назад, я понимаю, что последние два месяца были очень продуктивными и находчивыми. До прихода в Couture я практически не имел представления о машинном обучении, больших данных или даже, например, о Hadoop. За эти два месяца я вырос как личность и погрузился в такие темы, как машинное обучение, искусственный интеллект и алгоритмы, и получил ценную профессиональную информацию о рабочей культуре и..

Apache Spark и Amazon SageMaker, жемчужины бесконечности аналитики
В предыдущем посте я показал вам как создать классификатор спама , запустив PySpark на экземпляре записной книжки Amazon SageMaker . Это прекрасная установка для экспериментов, но она недостаточно масштабируема и не автоматизирована для производства. А теперь давайте продолжим и воспользуемся подходящим кластером Amazon EMR , на котором запущен Spark и используем SageMaker Spark SDK для запуска учебных заданий. Мы также вкратце затронули вопрос« почему? ». Есть еще..

Что такое секционирование и группировка в Apache Hive? (Разделение против сегментирования)
Изучение секционирования и кластеризации в таблице Hive и понимание того, когда делать секционирование, а когда кластеризацию. Привет, ребята, Apache Hive — одно из популярных хранилищ данных в распределенных кластерных средах. Улей Apache используется для хранения огромных объемов данных, которые можно обрабатывать быстро, параллельно и эффективно в среде HDFS (распределенная файловая система Hadoop). Чтобы сократить время доступа к запросам Hive, таблицы Hive можно хранить..

Python имеет большое количество библиотек машинного обучения, но его нельзя комбинировать с hadoop.
Это тоже вопрос, над которым мы думали. Здесь мы не рассматриваем глубокое обучение, потому что рабочая нагрузка глубокого обучения и традиционного машинного обучения совершенно различна. Традиционное машинное обучение обычно выполняет обучение и другую работу со всем набором данных, в то время как глубокое обучение в основном основано на пакетах, поэтому шаблон глубокого обучения — это маленькие, большие данные. Возьмите мир Python как самую популярную библиотеку для машинного обучения..