ENG

Хранилище данных (ETL)

Область применения

Изначально ETL-системы использовались для переноса информации из более ранних версий различных информационных систем в новые. В настоящее время в компаниях появилось множество различных корпоративных информационных систем, исходные данные в которых содержатся самых разнообразных типов и форматов, созданных в различных приложениях, и, кроме того, могут использовать различную кодировку, в то время как для решения задач анализа данные должны быть преобразованы в единый универсальный формат, который поддерживается хранилищем данных (ХД) и аналитическим приложением. Именно для решения задач анализа данных и построения отчетности на их основе возникла необходимость в использовании решения ETL.


Функциональные возможности
ETL (extraction, transformation, loading) - комплекс методов, реализующих процессы:
·         извлечение данных из одного или нескольких источников и подготовка их к преобразованию (загрузка в промежуточную область, проверка данных на соответствие спецификациям и возможность последующей загрузки в ХД);
·         трансформация данных – преобразование форматов и кодировки, агрегация и очистка;
·         загрузка данных — запись преобразованных данных, включая информацию о структуре их представления (метаданные) в необходимую систему хранения или витрину данных.
На практике ETL выступает в качестве промежуточного слоя между OLTP и OLAP - системами.
OLTP (Online Transaction Processing) – это транзакционные системы для обработки непрерывного потока небольших по размеру транзакций в режиме реального времени: ERP-, MES-, банковские и биржевые приложения. Они автоматизируют структурированные, повторяющиеся задачи обработки данных, например, ввод заказов и банковские транзакции, в большом количестве за короткие промежутки времени. Однако сложные аналитические запросы в таких системах выполняются очень долго.

 OLAP (Online Analytical Processing) – это интерактивная аналитическая обработка, подготовка суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу. В таких системах аналитические запросы выполняются значительно быстрее.

Таким образом, основные функции ETL-системы можно представить в виде последовательности операций по передаче данных из OLTP в OLAP:

1.    Процесс загрузки – его задача собрать в ETL-систему данные произвольного качества для дальнейшей обработки.
2.    Процесс валидации данных – на этом этапе данные последовательно проверяются на корректность и полноту, составляется отчет об ошибках для исправления.
3.    Процесс мэппинга данных с целевой моделью – на этом этапе происходит сопоставление данных в валидированной таблице с целевой моделью. К валидированной таблице пристраиваются столбцы по количеству справочников целевой модели, а потом в каждой пристроенной ячейке каждой строки проставляются соответствие значений целевых справочников.
4.    Процесс агрегации данных – этот процесс нужен из-за разности детализации данных в OLTP и OLAP системах.
5.    Выгрузка в целевую систему — это технический процесс использования коннектора и передачи данных в целевую систему.

Что мы предлагаем
Мы предлагаем своим заказчикам полный цикл работ, он включает в себя предпроектное обследование, выбор оптимального ETL-решения для вашей компании от ведущих разработчиков по данному направлению: Oracle, Pentaho, Inforamatica и др. Кастомизацию базовых решений от вендора под ваши задачи, а также интеграцию и сопряжение с существующей информационной инфраструктурой, инсталляцию и проведение приемо-сдаточных испытаний, а также сервисную и техническую поддержку, обеспечивающую оптимальную и бесперебойную работу систем.

Полный список