Что мы из себя представляем

Наша компания «Школа Больших Данных» (https://www.bigdataschool.ru) предлагаем уникальные практические курсы по Big Data (большие данные) а также материалы, новости, документы по следующим направлениям: Большие данные, Data Mining, Internet of Things, Industrial Internet of Things, цифровая трансформация, компоненты экосистемы Hadoop, Apache Spark,Kafka, NiFi, AirFlow,HBase, NoSQL, построение распределенных кластерных систем хранения больших данных и озер данных (Data Lakes) на платформах Cloudera Distributed Hadoop, Аренадата Hadoop, HortonWorks Data Platform и многое другое.

Предстоящие мероприятия (4+)

SPARK: Анализ данных с Apache Spark

Бизнес-Депо

54 000,00 ₽

курс «Анализ и обработка данных с Apache Spark, включая Streaming, Spark SQL, MLLib и GraphX» представляет собой 3-дневный интенсивный тренинг по использованию распределенной платформы Apache Spark для работы с большими массивами неструктурированных данных и потоковой обработки информации.

Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX«
1. Обзор Apache Spark, знакомство со Spark RDD и Dataframe
Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
Обзор компонентов Spark и их назначения
Low Level API, использование Resilient Distributed Dataset
Structured API и основная абстракция Spark — Dataframe
2. Apache Spark SQL
Получение данных из SQL-источников и обработка данных с помощью Spark SQL
Отправка данных в SQL СУБД и работа с Hive QL
Spark SQL и Hadoop
3. Производительность и параллелизм в Apache Spark
Планы выполнения. Logical и physical планы
Конфигурирование Apache Spark
4. Spark Streaming
Разница работы в режимах OLAP и OLTP. Основной workflow
Виды Spark Stream-ов. Особенности исполнения streaming кода
Checkpoint’ы в Spark Streaming
5. GraphX и MLLib
Задачи графов в программировании. Место графов в модели распределенных вычислений
Представление графов в GraphX. Операции с графами
Задачи машинного обучения и проблематика больших данных
Основные возможности Spark MLLib
6. Обработка слабоструктурированных данных
Работа с JSON файлами и строками
Обработка информации, представленной в виде XML
Подробнее на сайте https://www.bigdataschool.ru/bigdata/apache-spark-sql.html

HDDE: Hadoop для инженеров данных

Бизнес-Депо

90 000,00 ₽

Основные концепции Hadoop и Data Lake
Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
Организация хранения данных в Hadoop Data Lake
Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
Инструменты управления кластером
Выполнение базовых операций с Cloudera Manager/Apache Ambari.
Настройка компонент Apache ZooKeeper.
Создание и управление запросами и данными с использованием сервиса Hue/ Ambari View.
Хранение данных в HDFS
Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
Импорт/экспорт данных в кластер Hadoop — формирование Data Lake
Импорт и обработка данных в кластере Hadoop
Интеграция с реляционными базами данных
Структура хранения данных в таблицах
Сравнительная характеристика решений Hadoop SQL
Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
Apache Hive
Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
Hive LLAP, Hive on Spark/Tez
Cloudera Impala
Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
Оптимизация Impala запросов
Потоковые данные в Data Lake
Event Processing System. Импорт потоковых данных в кластер
Использование Kafka для работы с потоковыми данными
Использование Flume для работы с потоковыми данными
Интеграция Flume + Kafka
Процессинг данных с использование Apache NiFi

Подробнее на сайте https://www.bigdataschool.ru/bigdata/hadoop_for_data_engineer.html

HIVE: Hadoop SQL Hive администратор

Бизнес-Депо

18 000,00 ₽

1-дневный практический тренинг по настройке доступа к большим данных в распределенной файловой системе HDFS ( платформа Hadoop) с помощью интерфейса Hadoop SQL Hive. Рассматриваются аспекты SQL доступа к не структурированным данным с использованием Apache Hive, Cloudera Impala, курс по Apache HBase, Spark SQL, использование и оптимизация запросов операций JOIN и SELECT< оптимизация доступа с помощью партиций и buckets.

Подробнее на сайте https://www.bigdataschool.ru/bigdata/hive-hadoop-sql-administrator.html

PNLP: NLP – ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА С PYTHOО

Бизнес-Депо

5-ти дневный практический курс для Data Scientist’ов, специалистов по машинному обучению и Python-разработчиков NLP-приложений, которые хотят освоить продвинутые методы решения задач обработки естественного языка с помощью нейронных сетей.

NLP (Natural Language Processing, NLP) или обработка естественного языка – это целое направление искусственного интеллекта и математической лингвистики, направленное на анализ (компьютерное понимание) текста и речи, а также их грамотный синтез (генерацию нового). NLP-технологии нужны не только для распознавания живого языка средствами искусственного интеллекта. Они дают возможность адекватного взаимодействия человека с вычислительными системами. Программа курса по ссылке:
https://python-school.ru/courses/pnlp-natural-language-processing/

Прошедшие мероприятия (190)

HBASE: КУРС АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HBASE

Онлайн-мероприятие

72 000,00 ₽

Фотографии (102)