Skip to content

27 Апреля 2024 10:00

Спонсоры Апрельского бигдатника

Программа

  • Postgres ARM vs x86


    Тимофей Захаренко и Олег Зайцев, Selectel (Москва, Санкт-Петербург)

  • image/svg+xml Apache NiFi


    Бронислав Житников, Positive Technologies, ex-Тинькофф, Админ комьюнити NIFI (Ростов-на-Дону)

  • Kafka cruise control


    Юрий Ходырев, Ozon (Пермь)

  • Arenadata DB


    Дмитрий Воронков и Татьяна Григорьева, Arenadata (Москва, Санкт-Петербург)

  • image/svg+xml HDFS


    Андрей Шитов, Arenadata (Москва)

  • Clickhouse


    Артемий Кравцов, Wildberries (Москва)

  • Архитектурное мышление и принятие решений


    Дмитрий Блинов, ОК РУСАЛ (Москва)

  • dbt DBT + SQL


    Артемий Козырь, Wheely, Основатель комьюнити Data Apps Design (Сочи)

  • Hadoop


    Станислав Лысиков, Основатель комьюнити dbt_users
    (Санкт-Петербург)

  • Postgres


    Алексей Брусницын и Андрей Аксенов, (Пермь, Красноярск) Wildberries

  • Airflow + DBT


    Никита Юрасов и Леонид Кожинов, Toloka (Белград, Сербия)

i. Часть первая

Время Тема
10:00 - 10:20 🫱🏼‍🫲🏻 Регистрация и утренний кофе ☕️
10:20 - 11:00 Производительности PostgreSQL на разных аппаратных платформах
11:00 - 11:40 SQL + dbt = God Mode Data Modeling
11:40 - 12:20 Apache Hadoop. Рассвет или закат opensource. Как живет онпрем в 24 году
12:20 - 13:00 Что правда из того, что говорят про Clickhouse
13:00 - 14:00 🍲 Кушаем 🥗
14:00 - 14:40 Как отбалансировать десятки брокеров с миллионом rps с помощью Kafka Cruise-Control
14:40 - 15:20 Проблемы, с которыми мы сталкиваемся при работе с Postgresql
15:20 - 16:00 Зачем вам нужен NiFi
16:00 - 16:40 ☕️ Кофе-брейк ☕️
16:40 - 17:20 Архитектурное мышление и принятие решений
17:20 - 18:00 Наш подход к интеграции dbt и Airflow
18:00 - 18:40 Как мы расширяем возможности open-source решений на примере Arenadata DB
18:40 - 19:20 Оптимизация эффективности хранения данных в HDFS с помощью Intel Smart Storage Management (SSM)
19:20 - 20:00 Собираемся и переходим ко второй части

ii. Нетворкинг

  • Разыграем 50 т.р. на сервера от selectel.ru
  • 👋🏼 Знакомимся 🙈
  • 🎙️ Общаемся 🗣️
  • 📸 Фоткаемся 🤳🏻
  • 🍺 Ну вы поняли 🪩

Доклады

Postgres MySQL ARM x86

Тимофей Захаренко и Олег Зайцев (Москва) Selectel

Кто мощнее в базах данных? Сравниваем производительность БД на серверах с ARM- и x86-процессорами

Ранее я разобрал и протестировал сервер с процессором ARM, который попал к нам в Selectel Lab. Сервер показал хорошие результаты по производительности в ряде классических тестов, но в этот раз захотелось проверить его в боевой задаче — в работе с базами данных. Быть может, архитектура ARM-процессора сделает всех конкурентов на этой территории?

Чтобы ответить на этот вопрос, протестировал ARM вместе с семеркой серверов разных конфигураций с процессорами Intel и AMD. В качестве баз данных для нашего эксперимента выбрал самые популярные — PostgreSQL и MySQL. Результаты тестов с графиками и комментариями — под катом. Надеюсь, они будут полезны вам при выборе сервера под БД.

О себе
  • Тимофей Захаренко - Менеджер корпоративных проектов

  • Олег Зайцев - Архитектор, Технический директор


SQL plus dbt

Артемий Козырь (Сочи) Wheely, Основатель комьюнити data_apps

SQL + dbt = God Mode Data Modeling

На кейсе создания витрины корпоративных метрик рассмотрим:

  • Элементы functional programming c dbt macros

  • Интерактивный UX с dbt Power User + CLI

  • Импорт и переиспользование кода с dbt packages

  • Универсальный код и окружения с dbt adapters


Apache Hadoop

Станислав Лысиков (Санкт-Петербург) Компания под NDA

Рассвет или закат opensource. Как живет онпрем в 24 году

  • Монополизация рынка онпрем инсталяций со стороны клаудеры и закрытие репозитариев бинарных сборок и плейбуков установки остановила внедрение новых и обновление старых кластеров хадупа и в больших, и в малых компаниях

  • Малые вендоры все еще не кажутся надежными и успевающими за темпами современной разработки около hadoop сервисов. да и стоит ли оно того после произошедшего?

  • Пример внедрения ванильной сборки apache hadoop в малой компании как ядре платформы данных (hadoop + spark + kyuubi + dbt + zeppelin + ranger)

  • 2 года в проде

После ухода основных вендоров и закрытия исходников мы (как и достаточно большое число компаний) оказались в затруднительном положении - жить без обновлений на старой версии платформы HDP/CDP или же идти дальше.

В докладе рассказываю как внедрили ванильную сборку Apache Hadoop как ядро платформы данных компании, сколько это стоило и отзывы за 2 года жизни платформы

Alt text

О себе

Основатель комьюнити dbt_users

Основатель комьюнити nifiusers


Clickhouse

Артемий Кравцов (Москва) Wildberries

Что правда из того, что говорят про Clickhouse

Вспомним некоторые стереотипы про ClickHouse и разберёмся в том, какие из них правдивы, и почему Кликхаус работает так, как он работает. Обсудим тезисы:

  • Нельзя вставлять часто

  • JOIN-ить большие таблицы невозможно

  • Не поддерживается точечный доступ к строкам (делит, апдейт, селект)

  • Классические модели хранения неприменимы

О себе

Ведущий Data Engineer


Apache Kafka

Юрий Ходырев (Пермь) Ozon

Как отбалансировать десятки брокеров с миллионом rps с помощью Cruise-Control

  • Что такое Cruise-Control и для чего он нужен

  • С какими проблемами мы столкнулись при запуске Cruise-Control в Ozon

  • Как начать использовать Cruise-Control у себя уже завтра

О себе

Работаю старшим инженером инфраструктурных сервисов команды Message Bus в Ozon. Наша команда строит масштабируемую шину данных, которая обрабатывает миллионы сообщений в секунду, для всего «Озона». В нашей работе даже малейшая задержка обходится бизнесу в огромную сумму. Рутину связанную с прогрнозированием, построеннием правильного плана балансировки и выполнение самой балансировки мы переложили в отдельный инструмент и вы можете так же.


HA Postgres

Алексей Брусницын и Андрей Аксенов (Пермь, Красноярск) Wildberries

Как мы готовим высокодоступный postgres для команд и с чем мы столкнулись в процессе

  • Компоненты которые используем

  • Кроблемы какие возникли в процессе эксплуатации с этими компонентами

  • Мониторинг и алертинг

  • Проблемы внешние которые заставили нас пересмотреть некоторые подходы

О себе
  • Руководитель направления SRE инженеров по базам данных

  • Ведущий SRE инженер по базам данных


NiFi

Бронислав Житников (Ростов) Positive Technologies

Зачем вам нужен NiFi

  • О том для решения каких задач можно применять Apache Nifi

  • Какие возможности он даёт

  • С какими проблемами прийдется столкнутся если взять его к себе в стек

  • Постараюсь зацепить несколько компаний работающих и работавших с nifi, без особой жести скорее всего и погружения в кишки

О себе

Админ комьюнити nifiusers


Architectural Thinking and Decision Making

Дмитрий Блинов (Москва) ОК РУСАЛ

Архитектурное мышление и принятие решений

Попробуем найти ответ, что же такое архитектурное мышление, какие бывают компромиссы, и как принимать решения с помощью SWOT и Cynefin


Airflow dbt integration

Никита Юрасов и Леонид Кожинов (Белград, Сербия) Toloka

Наш подход к интеграции dbt и Airflow

Контролируемый хаос Data Mesh’а на кончиках вашего Airflow

  • Расскажем о нашем опыте жизни с большими данными в концепции Data Mesh

  • Немного поговорим о текущем стеке: Azure, Databricks, Airflow, dbt, Airbyte, MonteCarlo

  • Посмотрим на существующие решения dbt + Airflow

  • Полюбуемся нашей интеграцией

  • Не забудем упомянуть про подводные камни библиотеки в частности и стека в общем

О себе
  • Никита Юрасов - Разработчик по призванию, data engineer по карьере, но в сердце — исследователь закономерностей данных (короче, математик)

  • Кожинов Леонид - Старший разработчик мигрировавший в DevOps’а. Фанат модных языков программирования, если это C++


Arenadata DB

Дмитрий Воронков и Татьяна Григорьева (Москва, Санкт-Петербург) Arenadata

Как мы расширяем возможности open-source решений на примере Arenadata DB

Использование open-source решений без изменений таит в себе ряд потенциальных проблем, которые, вероятно, возникнут в процессе их использования в будущем.

Возможные вопросы включают в себя:

  • Как выполнять обновления и переход между версиями?
  • Как управлять зависимостями, определять их версии и проводить тестирование?
  • К кому обратиться при возникновении трудностей в процессе использования?
  • Это ошибка решения - бага или задуманная функциональность - фича?
  • Как поступить при нехватке требуемого функционала?

В нашем докладе мы рассмотрим, как в Arenadata решаются эти и другие смежные вопросы на примере Arenadata DB, а также как мы расширяем функциональность продукта и какие направления развития мы видим для нашего продукта.


HDFS

Андрей Шитов (Москва) Arenadata

Оптимизация эффективности хранения данных в HDFS с помощью Intel Smart Storage Management (SSM)

Эффективное управление большими объемами данных в HDFS является сложной задачей, особенно при переменных профилях нагрузки и строгих требованиях к SLA.

Мы рассмотрим:

  • Основы архитектуры HDFS: структуру, компоненты и методы обеспечения доступности данных.
  • Плюсы и минусы distcp для перемещения данных в HDFS, включая ситуации, где его применение может быть не лучшим выбором.
  • Принципы Smart Storage Management: обзор концепций, которые помогают в управлении данными и оптимизации производительности.


Место проведения

м. Бауманская

Доброслободская д.5 А

Смотри видео на ютубе как выглядит зал

Фотки