27 Апреля 2024 10:00
Спонсоры Апрельского бигдатника
Программа
-
Postgres ARM vs x86
Тимофей Захаренко и Олег Зайцев, Selectel (Москва, Санкт-Петербург)
-
Apache NiFi
Бронислав Житников, Positive Technologies, ex-Тинькофф, Админ комьюнити NIFI (Ростов-на-Дону)
-
Kafka cruise control
Юрий Ходырев, Ozon (Пермь)
-
Arenadata DB
Дмитрий Воронков и Татьяна Григорьева, Arenadata (Москва, Санкт-Петербург)
-
HDFS
Андрей Шитов, Arenadata (Москва)
-
Clickhouse
Артемий Кравцов, Wildberries (Москва)
-
Архитектурное мышление и принятие решений
Дмитрий Блинов, ОК РУСАЛ (Москва)
-
DBT + SQL
Артемий Козырь, Wheely, Основатель комьюнити Data Apps Design (Сочи)
-
Hadoop
Станислав Лысиков, Основатель комьюнити dbt_users
(Санкт-Петербург) -
Postgres
Алексей Брусницын и Андрей Аксенов, (Пермь, Красноярск) Wildberries
-
Airflow + DBT
Никита Юрасов и Леонид Кожинов, Toloka (Белград, Сербия)
i. Часть первая
Время | Тема |
---|---|
10:00 - 10:20 | 🫱🏼🫲🏻 Регистрация и утренний кофе ☕️ |
10:20 - 11:00 | Производительности PostgreSQL на разных аппаратных платформах |
11:00 - 11:40 | SQL + dbt = God Mode Data Modeling |
11:40 - 12:20 | Apache Hadoop. Рассвет или закат opensource. Как живет онпрем в 24 году |
12:20 - 13:00 | Что правда из того, что говорят про Clickhouse |
13:00 - 14:00 | 🍲 Кушаем 🥗 |
14:00 - 14:40 | Как отбалансировать десятки брокеров с миллионом rps с помощью Kafka Cruise-Control |
14:40 - 15:20 | Проблемы, с которыми мы сталкиваемся при работе с Postgresql |
15:20 - 16:00 | Зачем вам нужен NiFi |
16:00 - 16:40 | ☕️ Кофе-брейк ☕️ |
16:40 - 17:20 | Архитектурное мышление и принятие решений |
17:20 - 18:00 | Наш подход к интеграции dbt и Airflow |
18:00 - 18:40 | Как мы расширяем возможности open-source решений на примере Arenadata DB |
18:40 - 19:20 | Оптимизация эффективности хранения данных в HDFS с помощью Intel Smart Storage Management (SSM) |
19:20 - 20:00 | Собираемся и переходим ко второй части |
ii. Нетворкинг
- Разыграем 50 т.р. на сервера от selectel.ru
- 👋🏼 Знакомимся 🙈
- 🎙️ Общаемся 🗣️
- 📸 Фоткаемся 🤳🏻
- 🍺 Ну вы поняли 🪩
Доклады
Postgres MySQL ARM x86
Тимофей Захаренко и Олег Зайцев (Москва) Selectel
Кто мощнее в базах данных? Сравниваем производительность БД на серверах с ARM- и x86-процессорами
Ранее я разобрал и протестировал сервер с процессором ARM, который попал к нам в Selectel Lab. Сервер показал хорошие результаты по производительности в ряде классических тестов, но в этот раз захотелось проверить его в боевой задаче — в работе с базами данных. Быть может, архитектура ARM-процессора сделает всех конкурентов на этой территории?
Чтобы ответить на этот вопрос, протестировал ARM вместе с семеркой серверов разных конфигураций с процессорами Intel и AMD. В качестве баз данных для нашего эксперимента выбрал самые популярные — PostgreSQL и MySQL. Результаты тестов с графиками и комментариями — под катом. Надеюсь, они будут полезны вам при выборе сервера под БД.
О себе
-
Тимофей Захаренко - Менеджер корпоративных проектов
-
Олег Зайцев - Архитектор, Технический директор
SQL plus dbt
Артемий Козырь (Сочи) Wheely, Основатель комьюнити data_apps
SQL + dbt = God Mode Data Modeling
На кейсе создания витрины корпоративных метрик рассмотрим:
-
Элементы functional programming c dbt macros
-
Интерактивный UX с dbt Power User + CLI
-
Импорт и переиспользование кода с dbt packages
-
Универсальный код и окружения с dbt adapters
Apache Hadoop
Станислав Лысиков (Санкт-Петербург) Компания под NDA
Рассвет или закат opensource. Как живет онпрем в 24 году
-
Монополизация рынка онпрем инсталяций со стороны клаудеры и закрытие репозитариев бинарных сборок и плейбуков установки остановила внедрение новых и обновление старых кластеров хадупа и в больших, и в малых компаниях
-
Малые вендоры все еще не кажутся надежными и успевающими за темпами современной разработки около hadoop сервисов. да и стоит ли оно того после произошедшего?
-
Пример внедрения ванильной сборки apache hadoop в малой компании как ядре платформы данных (hadoop + spark + kyuubi + dbt + zeppelin + ranger)
-
2 года в проде
После ухода основных вендоров и закрытия исходников мы (как и достаточно большое число компаний) оказались в затруднительном положении - жить без обновлений на старой версии платформы HDP/CDP или же идти дальше.
В докладе рассказываю как внедрили ванильную сборку Apache Hadoop как ядро платформы данных компании, сколько это стоило и отзывы за 2 года жизни платформы
Clickhouse
Артемий Кравцов (Москва) Wildberries
Что правда из того, что говорят про Clickhouse
Вспомним некоторые стереотипы про ClickHouse и разберёмся в том, какие из них правдивы, и почему Кликхаус работает так, как он работает. Обсудим тезисы:
-
Нельзя вставлять часто
-
JOIN-ить большие таблицы невозможно
-
Не поддерживается точечный доступ к строкам (делит, апдейт, селект)
-
Классические модели хранения неприменимы
О себе
Ведущий Data Engineer
Apache Kafka
Юрий Ходырев (Пермь) Ozon
Как отбалансировать десятки брокеров с миллионом rps с помощью Cruise-Control
-
Что такое Cruise-Control и для чего он нужен
-
С какими проблемами мы столкнулись при запуске Cruise-Control в Ozon
-
Как начать использовать Cruise-Control у себя уже завтра
О себе
Работаю старшим инженером инфраструктурных сервисов команды Message Bus в Ozon. Наша команда строит масштабируемую шину данных, которая обрабатывает миллионы сообщений в секунду, для всего «Озона». В нашей работе даже малейшая задержка обходится бизнесу в огромную сумму. Рутину связанную с прогрнозированием, построеннием правильного плана балансировки и выполнение самой балансировки мы переложили в отдельный инструмент и вы можете так же.
HA Postgres
Алексей Брусницын и Андрей Аксенов (Пермь, Красноярск) Wildberries
Как мы готовим высокодоступный postgres для команд и с чем мы столкнулись в процессе
-
Компоненты которые используем
-
Кроблемы какие возникли в процессе эксплуатации с этими компонентами
-
Мониторинг и алертинг
-
Проблемы внешние которые заставили нас пересмотреть некоторые подходы
О себе
-
Руководитель направления SRE инженеров по базам данных
-
Ведущий SRE инженер по базам данных
NiFi
Бронислав Житников (Ростов) Positive Technologies
Зачем вам нужен NiFi
-
О том для решения каких задач можно применять Apache Nifi
-
Какие возможности он даёт
-
С какими проблемами прийдется столкнутся если взять его к себе в стек
-
Постараюсь зацепить несколько компаний работающих и работавших с nifi, без особой жести скорее всего и погружения в кишки
О себе
Админ комьюнити nifiusers
Architectural Thinking and Decision Making
Дмитрий Блинов (Москва) ОК РУСАЛ
Архитектурное мышление и принятие решений
Попробуем найти ответ, что же такое архитектурное мышление, какие бывают компромиссы, и как принимать решения с помощью SWOT и Cynefin
Airflow dbt integration
Никита Юрасов и Леонид Кожинов (Белград, Сербия) Toloka
Наш подход к интеграции dbt и Airflow
Контролируемый хаос Data Mesh’а на кончиках вашего Airflow
-
Расскажем о нашем опыте жизни с большими данными в концепции Data Mesh
-
Немного поговорим о текущем стеке: Azure, Databricks, Airflow, dbt, Airbyte, MonteCarlo
-
Посмотрим на существующие решения dbt + Airflow
-
Полюбуемся нашей интеграцией
-
Не забудем упомянуть про подводные камни библиотеки в частности и стека в общем
О себе
-
Никита Юрасов - Разработчик по призванию, data engineer по карьере, но в сердце — исследователь закономерностей данных (короче, математик)
-
Кожинов Леонид - Старший разработчик мигрировавший в DevOps’а. Фанат модных языков программирования, если это C++
Arenadata DB
Дмитрий Воронков и Татьяна Григорьева (Москва, Санкт-Петербург) Arenadata
Как мы расширяем возможности open-source решений на примере Arenadata DB
Использование open-source решений без изменений таит в себе ряд потенциальных проблем, которые, вероятно, возникнут в процессе их использования в будущем.
Возможные вопросы включают в себя:
- Как выполнять обновления и переход между версиями?
- Как управлять зависимостями, определять их версии и проводить тестирование?
- К кому обратиться при возникновении трудностей в процессе использования?
- Это ошибка решения - бага или задуманная функциональность - фича?
- Как поступить при нехватке требуемого функционала?
В нашем докладе мы рассмотрим, как в Arenadata решаются эти и другие смежные вопросы на примере Arenadata DB, а также как мы расширяем функциональность продукта и какие направления развития мы видим для нашего продукта.
HDFS
Андрей Шитов (Москва) Arenadata
Оптимизация эффективности хранения данных в HDFS с помощью Intel Smart Storage Management (SSM)
Эффективное управление большими объемами данных в HDFS является сложной задачей, особенно при переменных профилях нагрузки и строгих требованиях к SLA.
Мы рассмотрим:
- Основы архитектуры HDFS: структуру, компоненты и методы обеспечения доступности данных.
- Плюсы и минусы distcp для перемещения данных в HDFS, включая ситуации, где его применение может быть не лучшим выбором.
- Принципы Smart Storage Management: обзор концепций, которые помогают в управлении данными и оптимизации производительности.
Место проведения
м. Бауманская
Смотри видео на ютубе как выглядит зал