- Регистрация
 - 27 Авг 2018
 
- Сообщения
 - 47,045
 
- Реакции
 - 948,124
 
- Тема Автор Вы автор данного материала? |
 - #1
 
		
		
		
			Голосов: 0
		
	
			
				
					
	ОПИСАНИЕ:
Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive [bigdata team]
Кому подойдет этот курс:
- Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере. - Data Engineers
Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять. - Аналитикам
Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими данными, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации. - Data Scientists
Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей. 
Часть 1. HDFS, Map Reduce, Hive
В этом модуле вы изучите:
- вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;
 - распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;
 - чтение и запись в HDFS. HDFS APIs: Web, shell.
 - Hadoop Streaming;
 - элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
 - приложения с несколькими Hadoop-задачами;
 - тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);
 - задачи с несколькими входами. Joins в Hadoop.
 - архитектура Hive, виды таблиц, форматы хранения данных;
 - трансляция Hive-запросов в MapReduce-задачи;
 - сериализация и десериализация;
 - тюнинг Join'ов в Hive;
 - партиционирование, бакетирование, семплирование;
 - User defined functions, Hive Streaming.
 
СКАЧАТЬ:
			
				Последнее редактирование: