ХРАНЕНИЕ И ОБРАБОТКА БОЛЬШИХ ДАННЫХ НА ПЛАТФОРМЕ HADOOP И APACHE SPARK

Цель программы: качественное изменение профессиональных компетенций, направленных на повышение профессионального уровня в рамках имеющейся у слушателей квалификации в области работы с большими данными и распараллеливанию обработки данных с помощью современных технологий. Результатом обучения является приобретение знаний и умений по: работе с данными в распределенных отказоустойчивых системах на примере дистрибутива Cloudera Hadoop; применимости технологий больших данных в реальных проектах; основам настройки и администрирования кластера Cloudera Hadoop; работе с распределенной файловой системой HDFS, загрузке данных из внешних файлов и баз данных; трансформации и анализу данных с помощью SQL-интерфейса Apache Hive; обзору фреймворков MapReduce, Apache Spark, Apache Kafka, Apache AirFlow и других популярных компонентов современных архитектур для работы с большими данными