ООО «Готовим Данные» Написать письмо Связаться в Telegram

Data Cooker ETL

Инструмент Apache Spark
для эффективной работы
с большими данными

Не трать время на визуальное программирование. Определяй все процессы ETL как код на декларативном языке. Пиши его в любимом редакторе, храни в репозитории, деплой через привычный CI

Документация
SQL

Диалект SQL

Код ETL понятен с первого SELECT

Спецификация
Расширяемость

Расширяемость

Open Source и простая объектная модель

Fork Me On GitHub
CLI и REPL

CLI и REPL

Пакетный запуск. Полностью интерактивная отладка

Документация
Любые хранилища

Любые хранилища

Файловые системы Hadoop, S3-совместимые*, JDBC*

* Get On GitHub

Низкая стоимость владения

  • Эффективное использование ресурсов кластера
  • Простота поддержки кода ETL
  • Минимальные затраты на разработку расширений
  • Простота тестирования и отладки процессов

Хочу подробнее

Лёгкое внедрение

  • Один FatJAR и все дела
  • Постоянный кластер не нужен
  • Поможем внедрить
  • Подключим любые источники данных

Хочу подробнее

Подход Lean ETL

  • Ничего, кроме Spark, на кластере не нужно
  • Облако или железо? Любое окружение!
  • Передал конфигурацию на кластер — и посчитал
  • ...а отлаживайся локально в REPL

Документация

Диалект SQL специально для ETL

  • Всё, что ожидается от SQL
  • Очень знакомый, поэтому удобный
  • Дополнен оператором TRANSFORM
  • Объектная система типов с поддержкой геоданных

Спецификация языка

Каталог данных не нужен

  • А если не нужен, то нет и затрат на его поддержку
  • Схема данных определяется на лету
  • ...и только когда это необходимо
  • Мутируй её смело, сколько потребуется

Документация

Форматы наборов данных

  • Колоночные: Parquet, Delimited Text (CSV/TSV)
  • Текстовые: PlainText
  • Структурированные: JSON
  • Геометрические: GeoJSON, GPX

Документация

Адаптеры хранилищ

  • Файловые системы Hadoop
  • S3-совместимые*
  • Любая СУБД или NoSQL через JDBC*

* Адаптеры являются подключаемыми, и могут быть расширены через Java API

* Get On GitHub

Библиотека готовых алгоритмов

Операция Data Cooker — это как большая хранимая процедура, написанная на Java с использованием Spark RDD API. Низкоуровнево, и потому работает очень быстро.

Дата/время, геохешинг, вычисление рядов данных, популяционная статистика, геофенсинг, аналитика треков и плоскостных геометрий — 22 операции в стандартной поставке

Fork Me On GitHub

Трансформации наборов данных

Поддержка подключаемых трансформаций (как и операции, они написаны на Java) вкупе с объектно-ориентированным SELECT позволяет преобразовывать данные каждого из поддерживаемых форматов в любой другой.

В стандартной поставке — 21 трансформация

Fork Me On GitHub

Расширяемость объектной модели

...итак, у нас были с собой пара десятков операций, примерно столько же трансформаций, горсть адаптеров хранилищ, и^W Упс, не тот жанр.

Что нам хочется донести: не хватает стандартных — напиши собственные. Код открыт, API простое. А документация по всем объектам, кстати, генерируется при сборке автоматически

Fork Me On GitHub

Множество режимов выполнения

Пакетный локальный, Пакетный на кластере, Интерактивный локальный, Сервер на кластере, Интерактивный консольный клиент — и всё это с дополнительными опциями

Проще говоря, один FatJAR включает в себя всё, что необходимо для отладочного и промышленного окружения. А с учетом того, что сервер и клиент общаются через очень простой REST, интеграция в браузерный dashboard или notebook при необходимости реализуется легко

Ознакомиться

Управляемость процесса ETL

  • Поддержка внешних переменных везде и во всём
  • Поддержка структур ветвлений и циклов
  • Вычисление параметров в рантайме
  • Умное партиционирование наборов данных

Документация

Будем на связи

Можно внедрять самим, или оформить подписку

Мы не против, если вы будете внедрять наш инструментарий самостоятельно, и/или создадите на его основе собственный продукт. На то Open Source и существует!

Но у нас есть многолетний опыт сопровождения серьёзного международного проекта географической аналитики, использующей Data Cooker ETL в облаке Amazon, и мы с большим удовольствием поделимся экспертизой, накопленной на десятках тысяч различных ETL процессов

Написать письмо Связаться в Telegram
Продукт создан при поддержке Фонда содействия инновациям