|
IT_ONE разработала ETL-продукт для наполнения хранилищ данных – OneData
Компания IT_ONE (ООО «ИТ1-Технологии») разработала ETL-продукт по перемещению и интеграции данных в хранилищах – OneData. Новый фреймворк поддерживает большинство популярных типов источников и приемников данных, высокую скорость развертывания и отличается простотой настройки.
Деятельность коммерческих компаний связана с генерацией огромных массивов данных. Для их размещения и обработки используются озера данных (Data Lake), сложные распределенные хранилища, аналитические системы и другие технологии. При этом важным процессом является регулярная актуализация и пополнение этих данных из внешних систем-источников, разнородных по типу взаимодействия с ними и по типу передаваемых данных. OneData оптимизирует деятельность ИТ-команд компаний-заказчиков, занимающихся наполнением хранилищ данных. Продукт – альтернатива популярным западным проприетарным продуктам, многие из которых сегодня недоступны в России, а также продуктам на основе открытого ПО, которые могут не подходить заказчику по функциональности.
OneData состоит из четырех основных структурных компонентов: web-интерфейса конфигурирования, базы данных конфигураций потоков перемещения данных, сервиса обработки данных на базе Spark и оркестратора потоков на базе Apache Airflow. Решение поддерживает наиболее популярные в России источники и приемники данных. Например, оно работает с JDBC-источниками и брокером сообщений Apache Kafka, а в качестве приемников могут выступать файловые хранилища (HDFS, S3, FTP), JDBC, таблица Hive.
Работа в OneData происходит следующим образом. Администратор формирует конфигурацию потока перемещения данных, которая сохраняется в БД, и расписание запуска потока. В том же конфигурационном файле можно указать дополнительные настройки: например, количество ресурсов, которое будет запрашивать spark-процесс, преобразования типов полей и т. д. Параллельно происходит формирование DAG-файла и импорт его в Airflow для постановки потока на расписание. По расписанию происходит вызов Spark-процесса, который в соответствии с заданной конфигурацией осуществляет перемещение данных из источника в приемник. Использование Spark обеспечивает высокую скорость перемещения: эффективное распараллеливание, получение и запись данных.
Кроме того, при сохранении в файловую систему фреймворк поддерживает самые разные форматы файлов: orc, parquet, csv, json, deltalake. Чтение из Kafka может сопровождаться валидацией входящих json-сообщений по указанной json-схеме. Сообщения, не прошедшие валидацию фреймворк может бережно сложить в указанный DLQ-топик (Dead Letter Queue topic). Эти опции еще более расширяют функциональность продукта.
К числу преимуществ нового решения относится его оперативное развертывание. Основной Spark-процесс можно запустить даже локально, но для использования всех преимуществ рекомендуется Hadoop-кластер с YARN или Kubernetes-кластер. Конфигурация процессов перемещения данных может храниться в json-файлах или в любой доступной БД PostgreSQL. Оркестрация потоков осуществляется с помощью Airflow, который можно развернуть рядом или использовать уже имеющийся. OneData прост в настройке, ее может осуществить даже специалист без навыков программиста или DevOps.
В соответствии с «дорожной картой» развития OneData, компания IT_ONE планирует дополнить продукт такими функциями, как маскирование данных, перенос изменений в метаданных, поддержка новых типов источников и приемников, автоматическая проверка консистентности перемещенных данных. Также готовится ряд технологических доработок, которые должны облегчить эксплуатацию фреймворка: это фиксация метрик работы потоков перемещения данных, интеграция с системами мониторинга и т. д.
«Имея богатый опыт внедрения хранилищ и озер данных, в сложившейся на рынке ситуации мы почувствовали необходимость разработки собственного фреймворка перемещения данных. OneData способен радикально сокращать время и трудозатраты в таких задачах, как, например, наполнение Stage/ODS слоев, подключение новых источников данных к хранилищам или наполнение пользовательских песочниц. С каждым спринтом OneData становится всё более быстрым, удобным и совершенным», – комментирует ведущий менеджер проектов IT_ONE Александр Самойлов. IT_ONE (https://www.it-one.ru) — компания по разработке программного обеспечения для крупных игроков российского бизнеса и созданию собственных технологических решений и инноваций.
Контактное лицо: Татьяна Алексеева
Компания: IT_One
Добавлен: 22:30, 06.12.2023
Количество просмотров: 113
Страна: Россия
Начинается реализация проекта «Карелиада», Физическое лицо, 14:57, 29.01.2025, Россия666 | |
В рамках проекта «Карелиада: путешествия по родному краю» будут созданы мультимедийные материалы о малоизвестных памятниках архитектуры республиканского значения, которые расположены в карельских городах, и являются точкой притяжения для местных жителей. |
«Рейтинг Рунета» выяснил приоритеты digital-компаний, Рейтинг Рунета, 14:55, 29.01.2025, Россия674 | |
После 2022 года большинство участников digital-рынка борется за выживание, для которого в краткосрочной перспективе нужны продажи. К такому выводу пришли эксперты «Рейтинга Рунета», проведя исследование приоритетов руководителей компаний, оказывающих цифровые услуги. |
МегаФон и «Мария Мама» обучили родителей основам первой помощи детям, МегаФон, 03:32, 29.01.2025, Россия780 | |
МегаФон помог благотворительной организации «Мария мама» привлечь дополнительных слушателей на курсы по обучению первой помощи детям. Благодаря технологиям оператора более тысячи россиян из 11 регионов посетили однодневные школы и на практике отработали навыки спасения детей. |
INFRABASE вошел в реестр российского программного обеспечения, DCLogic, 05:55, 28.01.2025, Россия209 | |
Российский системный интегратор DCLogic c опытом разработки собственных продуктовых решений объявил о включении платформы для учета и управления ИТ-инфраструктурой INFRABASE в единый реестр программного обеспечения (ПО) России для электронных вычислительных машин и баз данных. |
Выручка Navicon увеличилась за 2024 год на 15%, Navicon, 05:55, 28.01.2025, Россия237 | |
Российский системный интегратор и разработчик Navicon подвел предварительные итоги работы за 2024 год. Выручка компании в России составила 1,9 млрд рублей, что на 15% больше, чем в 2023 году. |
«Формула Лайн» вырастет в разы и нацелилась на зарубежные рынки, Формула Лайн, 05:54, 28.01.2025, Россия188 | |
ИТ-компания «Формула Лайн» планирует увеличить выручку в три раза по итогам 2025 года. В числе прочего, в планах компании выход с интеграционными проектами на рынки дружественных стран. Для этих целей в «Формула Лайн» создается специальная группа разработчиков и консультантов, владеющих технологиями и решениями зарубежных производителей. |
СУБД ЛИНТЕР БАСТИОН обновлена до версии 6.0.20.3, РЕЛЭКС, 05:52, 28.01.2025, Россия175 |
Вышла очередная коммерческая версия флагманского программного продукта Компании РЕЛЭКС. Обновление включает более 90 изменений и направлено на повышение производительности, улучшение функциональности и обеспечение высокого уровня безопасности данных. |
МегаФон усилил операционных блок в Москве новым назначением, МегаФон, 05:48, 28.01.2025, Россия178 | |
Оператор в начале года ввел в макрорегионе Столица позицию директора московского отделения. На эту должность назначен Виктор Югай. В задачи нового топ-менеджера входит реализация телеком-стратегии компании на розничном и корпоративном рынке, усиление операционной эффективности и усовершенствование бизнес-процессов во внутреннем контуре компании в Москве и области. |
|
|