22 марта 2025 11:00

Спонсоры весеннего бигдатника

Программа

i. Часть первая

Время	Тема
10:20 - 11:00	🫱🏼‍🫲🏻 Регистрация и утренний кофе ☕️
11:00 - 11:50	Персональные данные
11:50 - 12:40	Архитектурные паттерны в потоковой аналитике
12:40 - 13:00	☕️ кофе-брейк ☕️
13:00 - 13:50	Apache Cloudberry: что интересного делаем
13:50 - 14:40	Возвратно-поступательные движения с Greenplum/Cloudberry
14:40 - 15:40	🍜 обед 🍜
15:40 - 16:30	PostgreSQL sharding
16:30 - 17:20	Как работать с шардированным кластером ClickHouse
17:20 - 18:00	Apache Spark SQL vs DSL

ii. Нетворкинг

👋🏼 Знакомимся 🙈
🎙️ Общаемся 🗣️
📸 Фоткаемся 🤳🏻
🍺 Ну вы поняли 🪩

Доклады

Personal data

Кирилл Зюбанов Wildberries

Персональные данные. Что еще можно, а что уже нельзя? Административная и уголовная ответственность за нарушения в сфере персональных данных

О себе

CDPO Wildberries, автор проекта "ПЕРСОНЕМЫ", Амбассадор RPPA в Республике Беларусь

Architect pattern

Александр Моисеев (Москва) Arenadata

Современные архитектурные паттерны в потоковой аналитике данных

Потоковая аналитика в реальном времени — это не попытка инженеров и архитекторов, уставших от PostgreSQL, найти себе новые увлечения, а универсальное решение для эффективной обработки данных, способное решать самые разнообразные бизнес-задачи. На примере задачи по оперативному выявлению аномальных всплесков обрывов и недозвонов в сетях сотовой связи мы разберем, как правильно построить потоковую аналитику и визуализировать критичные показатели в режиме real-time. В ходе доклада мы последовательно развенчаем шесть популярных стереотипов — от «у нас уже есть Kafka, значит, мы в потоковой аналитике» до «зачем нам Druid и Pinot, если у нас есть Trino, с которым все задачи можно решить». Мы рассмотрим ключевые архитектурные паттерны, подходы к хранению и обработке данных, а также обсудим, как выбрать оптимальный технологический стек (Kafka, Flink, Apache Pinot и др.) без лишних затрат и усложнений

О себе

Ровно 10 лет назад получил первую задачу в хадуп кластере, понять почему опять упал Hue

Cloudberry News

Леонид Борчук (Москва) Yandex Cloud

В Apache Cloudberry сейчас идет активный процесс cherry-pick изменений из GP7, расскажу детали этого процесса. И о других планах из roadmap. А также об оптимизаторах, что такое gporca и postgres optimizer, в чем уникальность GP и что здесь будем пытаться улучшить

О себе

Все время работал с БД, не собираюсь останавливаться

Cloudberry Reciprocating Motion

Кирилл Решке (Екатеринбург) Yandex Cloud

Возвратно-поступательные движения с Greenplum/Cloudberry

Поговорим про технологии, реализованные в opengpdb и apache Cloudberry, процесс разработки, процессы cherry-pick фичей, про сами фичи

О себе

Нажиматель случайных последовательностей на клавиатуре. Некоторые из них закомичены в PostgreSQL

SPQR

Денис Волков (Белград) Yandex Cloud

Планировщик запросов в шардированном PostgreSQL

PostgreSQL прекрасен. Особенно, если ваш кластер меньше нескольких террабайт, а нагрузка меньше 10^5+ запросов в секунду. Мы в Яндекс Облаке давно мечтали горизонтально масштабировать наши кластеры без боли и написали Stateless Postgres Query Router -- штуку, которая решает задачу шардирования PostgreSQL. В своем докладе я расскажу почему мы этим занимаемся и какие у нас есть успехи. Подробнее остановимся на том, как SPQR выполняет запросы и строит планы выполнения и к чему мы идем

О себе

Разработчик в Яндекс Облаке уже почти 4 года. Люблю писать код и кататься на велосипеде

Clickhouse

Артемий Кравцов (Москва) Wildberries

Как работать с шардированным кластером ClickHouse

Расскажу про MPP-архитектуру ClickHouse, про движок таблиц Distributed и особенности работы с шардированным кластером: что стоит учитывать при вставке данных и как оптимизировать запросы на чтение

О себе

Инженер данных в Wildberries. Работаю с ClickHouse 4 года

Spark Iceberg

Дмитрий Вертлиб (Санкт-Петербург) Честный Знак

Apache Spark: SQL vs DSL. SQL это круто ...

Мы привыкли, что с помощью фреймворка распределённых вычислений и DSL можно эффективно обрабатывать данные. В докладе я расскажу, как с помощью Apache Iceberg и различных оптимизаций реализовать оптимальную обработку данных на SQL с минимальным количеством перемещений (шаффла) и использованием вероятностных структур данных. Также я приведу пример реализации на DSL и полный функциональный аналог на SQL

О себе

JSON перекладывальщик, 1 год в бигдате(когда и блум фильтра мало)