What we're about

Наша компания «Школа Больших Данных» (https://www.bigdataschool.ru) предлагаем уникальные практические курсы по Big Data (большие данные) а также материалы, новости, документы по следующим направлениям: Большие данные, Data Mining, Internet of Things, Industrial Internet of Things, цифровая трансформация, компоненты экосистемы Hadoop, Apache Spark,Kafka, NiFi, AirFlow,HBase, NoSQL, построение распределенных кластерных систем хранения больших данных и озер данных (Data Lakes) на платформах Cloudera Distributed Hadoop, Аренадата Hadoop, HortonWorks Data Platform и многое другое.

Upcoming events (4+)

Курс обучения: "KAFKA: Администрирование кластера Kafka"

3x дневный практический курс по установке и настройке кластера Apache Kafka, распределенной потоковой обработки событий (Event Stream Processing), конфигурации безопасности Kerberos, интеграция с Apache NiFi, Spark, Flume, Zookeeper.

Программа курса "Администрирование кластера Kafka"

Введение в Apache Kafka
Что такое Kafka?
Сценарии использования Kafka
Компоненты Kafka и Kafka экосистемы
Архитектура Kafka
Кластер Zookeeper
Потоковая Обработка Событий(Event Stream Processing): — Терминология и основные концепции. Сравнение Hadoop и Spark
Основные концепции Kafka
Как работает Kafka: Топики (Topics) и партиций (Partitions). Репликация данных.
Брокеры (Brokers): Развертывание. Конфигурация Multibroker
Поставщики данных (Producers): Типы партиций. Синхронные и асинхронные Producers. Параметры конфигурации. Java API
Потребители данных (Consumers): Очереди Consumers. Широковещание (Broadcasting).
Установка кластера Kafka
Требования по установке кластера Kafka
Установка и настройка кластера Zookeeper: Настройка кворума. Конфигурация сервисов и файловой системы. Оптимизация и отказоустойчивость Zookeeper.
Установка и настройка кластера Kafka: Планирование установки и sizing кластера Kafka. Типовые проблемы при установке. Запуск и первоначальное конфигурирование Kafka. Конфигурация Listeners. Отказоусточивость кластера Kafka. Kafka менеджер.
Установка кластера Kafka на AWS
Базовые операции в Kafka
Операции с Топиками (Topic)
Публикация данных с консольного Producer
Получение данных с консольного Consumer
Пользовательские интерфейсы топика Kafka (Topics UI)
Написание кода producer
Написание кода consumer
Оптимизация кластера Apache Kafka
Оптимизация производительности компонент кластера
Масштабирование кластера
Балансировка разделов(partition) и использование Partition Reassignment Tools
Best Practices
Мониторинг кластера Kafka
Настройка мониторинга кластера Apache Kafka (Confluent) с использованием Prometheus + Grafana
Интеграция с Kafka
Интеграция Spark и Spark Streaming
Интеграция потоковой обработки Spark Streaming и Kafka
Использование Apache NiFi
Интеграция Apache Flume с Kafka
Расширенная конфигурация кластера Apache Kafka
Расширенная конфигурация топиков (Topic): Изменение конфигурации топиков. Sizing(количество партиций и фактор репликации). Сегменты и индексы. Политика очистки логов (Log Cleanup Policy). Сжатие и консолидация данных в логах.
Пользовательский интерфейс Landoop Kafka Topics
Confluent REST Proxy
Настройка Confluent Schema Registry
Архитектура Kafka Connect
Безопасность в Kafka
Шифрование SSL: Установка центра сертификатов (CA), настройка SSL для Kafka кластера и клиентов
Аутентификация SSL/SASL
Аутентификация Kerberos: Настройка Kerberos. Keytabs и principals. Настройка кластера Kafka и клиентов для поддержки Kerberos
Авторизация в Kafka
Управление списками управления доступом (ACL)
Зарегистрироваться на курс https://www.bigdataschool.ru/bigdata/apache-kafka-cluster-administrator-course.html
или по телефону [masked]

INTR: Основы Hadoop

Бизнес-Депо

RUB 60,000.00

Основы Hadoop и Big Data
Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
Отказоустойчивость и высокая доступность.
Batch процессинг.
Потоковая обработка
Распределенная файловая система HDFS
Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
Влияние компрессии на производительность. Кодеки компрессии.
Импорт(загрузка) данных на HDFS
MapReduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
Установка кластера Hadoop
Установка Hadoop кластера.
Выбор начальной конфигурации.
Оптимизация уровня ядра для узлов.
Оптимизация Java, JVM, Heap size, Garbage Collection
Начальная конфигурация HDFS и MapReduce.
Файлы логов и конфигураций.
Настройка подключений Hadoop клиентов.
Установка кластера Hadoop в облаке.
Особенности настройки кластера Hadoop на физическом сервере (on-premises)
Топология кластера Hadoop
Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
Архитектура YARN — планировщик и менеджер ресурсов
Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
FIFO scheduler
Capacity scheduler (Планировщик по мощности)
Fair scheduler (Гранулярное управление ресурсами)
Защита очередей и доминантное управление ресурсами DRF
Инструментарий Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Базовые операции в Apache Pig
Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.
Импорт и экспорт SQL таблиц с применением Apache sqoop
Настройка агентов для управления потоковыми операциями с Apache Flume
Базовые операции в Apache Spark
Примерный список практических занятий для курса «Основы Hadoop»:

Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
Управление ресурсами и запуском задач с использованием YARN и MapReduce
ETL операции преобразования с использованием Apache Pig
Знакомство с SQL интерфейсом доступа Apache Hive
Выполнение базовых операций импорта/экспорта с применением Apache sqoop
Настройка агента потоковой обработки Apache Flume(опционально)
Применение веб-интерфейса HUE/Zeppelin (опционально)
Подробнее на сайте https://www.bigdataschool.ru/bigdata/hadoop-intro.html

HADM: Администрирование кластера Hadoop

Online event

RUB 100,000.00

5 дней практического обучения Администрирования Hadoop, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform или Arenadata Hadoop;Arenadata Hadoop;
безопасность Kerberos, Apache Ranger, Atlas, Knox;
мониторинг, репликация и резервное копирование;
взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Подробнее https://www.bigdataschool.ru/bigdata/администрирование-кластера-hadoop.html

DEVKI: APACHE KAFKA ДЛЯ РАЗРАБОТЧИКОВ

Online event

RUB 80,000.00

4х-дневный курс для специалистов, желающих получить и систематизировать знания по использованию Apache Kafka для программирования распределенной обработки потоков событий (Event Stream Processing) на практических примерах с потоковыми данными в реальном времени.

Курс содержит расширенные сведения по написанию программ работы с распределенным журналом Kafka, использованию его в парадигмах Pub/Sub и Message Queue и обработки потоковых данных с соблюдением best practices.

В теоретической части вы узнаете о наиболее важных API, архитектуре Kafka и внутренних принципах работы основных API Apache Kafka (Producer API, Consumer API, Streams API, Connect API), а также об особенностях реализации Apache Kafka и некоторых интересных концепциях, таких как exactly once semantics, компактируемых логах, Kafka DSL и др.
На практике вы напишете несколько собственных приложений, включая свой Producer и Consumer, приложение Kafka Streams, коннекторы Source и Sink. Во время прикладной работы вы опробуете все API, о которых шла речь в теоретической части. Благодаря подробным объяснениям и комментариям, вы поймете, как наилучшим образом использовать предоставляемые Apache Kafka API для решения ваших бизнес-задач.
Программу курса более подробно можно посмотреть по ссылке
https://www.bigdataschool.ru/courses/apache-kafka-developers

Photos (102)