22 марта 2025 11:00
Спонсоры весеннего бигдатника
Программа
i. Часть первая
Время | Тема |
---|---|
10:20 - 11:00 | 🫱🏼🫲🏻 Регистрация и утренний кофе ☕️ |
11:00 - 11:50 | Персональные данные |
11:50 - 12:40 | Архитектурные паттерны в потоковой аналитике |
12:40 - 13:00 | ☕️ кофе-брейк ☕️ |
13:00 - 13:50 | Apache Cloudberry: что интересного делаем |
13:50 - 14:40 | Возвратно-поступательные движения с Greenplum/Cloudberry |
14:40 - 15:40 | 🍜 обед 🍜 |
15:40 - 16:30 | PostgreSQL sharding |
16:30 - 17:20 | Как работать с шардированным кластером ClickHouse |
17:20 - 18:00 | Apache Spark SQL vs DSL |
ii. Нетворкинг
- 👋🏼 Знакомимся 🙈
- 🎙️ Общаемся 🗣️
- 📸 Фоткаемся 🤳🏻
- 🍺 Ну вы поняли 🪩
Доклады
Personal data
Кирилл Зюбанов Wildberries
Персональные данные. Что еще можно, а что уже нельзя? Административная и уголовная ответственность за нарушения в сфере персональных данных
О себе
- CDPO Wildberries, автор проекта "ПЕРСОНЕМЫ", Амбассадор RPPA в Республике Беларусь
Architect pattern
Александр Моисеев (Москва) Arenadata
Современные архитектурные паттерны в потоковой аналитике данных
Потоковая аналитика в реальном времени — это не попытка инженеров и архитекторов, уставших от PostgreSQL, найти себе новые увлечения, а универсальное решение для эффективной обработки данных, способное решать самые разнообразные бизнес-задачи. На примере задачи по оперативному выявлению аномальных всплесков обрывов и недозвонов в сетях сотовой связи мы разберем, как правильно построить потоковую аналитику и визуализировать критичные показатели в режиме real-time. В ходе доклада мы последовательно развенчаем шесть популярных стереотипов — от «у нас уже есть Kafka, значит, мы в потоковой аналитике» до «зачем нам Druid и Pinot, если у нас есть Trino, с которым все задачи можно решить». Мы рассмотрим ключевые архитектурные паттерны, подходы к хранению и обработке данных, а также обсудим, как выбрать оптимальный технологический стек (Kafka, Flink, Apache Pinot и др.) без лишних затрат и усложнений
О себе
- Ровно 10 лет назад получил первую задачу в хадуп кластере, понять почему опять упал Hue
Cloudberry News
Леонид Борчук (Москва) Yandex Cloud
В Apache Cloudberry сейчас идет активный процесс cherry-pick изменений из GP7, расскажу детали этого процесса. И о других планах из roadmap. А также об оптимизаторах, что такое gporca и postgres optimizer, в чем уникальность GP и что здесь будем пытаться улучшить
О себе
- Все время работал с БД, не собираюсь останавливаться
Cloudberry Reciprocating Motion
Кирилл Решке (Екатеринбург) Yandex Cloud
Возвратно-поступательные движения с Greenplum/Cloudberry
Поговорим про технологии, реализованные в opengpdb и apache Cloudberry, процесс разработки, процессы cherry-pick фичей, про сами фичи
О себе
- Нажиматель случайных последовательностей на клавиатуре. Некоторые из них закомичены в PostgreSQL
SPQR
Денис Волков (Белград) Yandex Cloud
Планировщик запросов в шардированном PostgreSQL
PostgreSQL прекрасен. Особенно, если ваш кластер меньше нескольких террабайт, а нагрузка меньше 10^5+ запросов в секунду. Мы в Яндекс Облаке давно мечтали горизонтально масштабировать наши кластеры без боли и написали Stateless Postgres Query Router -- штуку, которая решает задачу шардирования PostgreSQL. В своем докладе я расскажу почему мы этим занимаемся и какие у нас есть успехи. Подробнее остановимся на том, как SPQR выполняет запросы и строит планы выполнения и к чему мы идем
О себе
- Разработчик в Яндекс Облаке уже почти 4 года. Люблю писать код и кататься на велосипеде
Clickhouse
Артемий Кравцов (Москва) Wildberries
Как работать с шардированным кластером ClickHouse
Расскажу про MPP-архитектуру ClickHouse, про движок таблиц Distributed и особенности работы с шардированным кластером: что стоит учитывать при вставке данных и как оптимизировать запросы на чтение
О себе
- Инженер данных в Wildberries. Работаю с ClickHouse 4 года
Spark Iceberg
Дмитрий Вертлиб (Санкт-Петербург) Честный Знак
Apache Spark: SQL vs DSL. SQL это круто ...
Мы привыкли, что с помощью фреймворка распределённых вычислений и DSL можно эффективно обрабатывать данные. В докладе я расскажу, как с помощью Apache Iceberg и различных оптимизаций реализовать оптимальную обработку данных на SQL с минимальным количеством перемещений (шаффла) и использованием вероятностных структур данных. Также я приведу пример реализации на DSL и полный функциональный аналог на SQL
О себе
- JSON перекладывальщик, 1 год в бигдате(когда и блум фильтра мало)