Описание

Курс был пройден для глубокого изучения процессов сбора, хранения, обработки и интеграции данных с использованием широкого круга технологий. Программа охватывает полный цикл работы с данными: от проектирования архитектуры хранилищ до сложных ETL/ELT процессов и применения методов машинного обучения.

Проектирование DWH

Data Warehouse — централизованное хранилище данных из разных источников. Создание архитектуры Data Warehouse с использованием современных подходов к моделированию данных, таких как Dimensional Modeling, Data Vault, Anchor Modeling и Data Mesh, на основе MPP-СУБД Greenplum.

Автоматизация ETL-процессов

Разработка ETL-пайплайн для обогащения базы данных, включая создание собственных плагинов для парсинга данных и их последующей загрузки и обработки. В качестве оркестратора использовн Apache Airflow.

Big Data

Разработка MapReduce-приложение на платформе Hadoop для обработки данных из Object Storage и формирования ежемесячных отчетов.
Разработка системы аналитической отчетности на основе технологии Spark, включающую построение отчетов, выявление корреляций и использование данных для визуализации для дашбордов.
Применение потоковой обработки данных с использованием Apache Kafka и Spark Streaming,

Облачное хранилище

Развёртывание в облаке виртуальные машины и сервисы, включая JupyterHub, PostgreSQL, MLflow и Spark, с использованием Kubernetes и Docker для управления контейнерами и масштабируемости инфраструктуры.

Визуализация данных

Разработка интерактивных дашбордов в Tableau, Datalens и Superset для визуализации данных и аналитики.

Как я могу улучшить работу с данными:

Оптимизация хранения и обработки данных – проектирование и внедрение централизованного Data Warehouse на MPP-СУБД Greenplum, что улучшает доступность и скорость аналитики данных из разных источников.
Автоматизация ETL-процессов – разработка и оркестрация ETL-пайплайнов в Apache Airflow, что снижает ручной труд, ускоряет обработку данных и обеспечивает стабильность обновления базы.
Работа с Big Data – разработка MapReduce-приложений и аналитики на Spark, что позволяет эффективно обрабатывать большие объемы данных и выявлять скрытые закономерности для бизнеса.
Разработка моделей машинного обучения – создание кредитного скоринга и детектирования ботов на SparkML с управлением версиями моделей в MLflow, что повышает точность предсказаний и прозрачность моделей.
Визуализация и аналитика данных – создание интерактивных дашбордов в Tableau, Superset и Datalens, что помогает принимать обоснованные решения на основе данных и упрощает мониторинг ключевых показателей.

Playmen998/DE-karpov.corses

Описание

Проектирование DWH

Автоматизация ETL-процессов

Big Data

Облачное хранилище

Визуализация данных

Big ML

Управление моделями

Управление данными

Как я могу улучшить работу с данными:

On this page

Languages

Contributors