Виртуализация данных

Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их структуре и принадлежности к конкретной информационной системе.

Оглавление

Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их структуре и принадлежности к конкретной информационной системе.

 

Хотя виртуализация данных имеет множество применений, данная статья ориентирована прежде всего на задачу интеграции корпоративных источников данных. Исторически такая задача решалась через преобразование сырых данных в единый формат и перенос их в корпоративные хранилища (EDW), а оттуда — в витрины данных (Data Marts). Такие системы весьма дороги в развертывании и обслуживании и требуют тщательного предварительного планирования. С развитием Hadoop выкристаллизовалась концепция озера данных (Data Lake), вмещающего в себя как структурированные так и неструктурированные данные. Такой подход также предполагает перемещение данных в единое корпоративное хранилище (более дешевое в сравнении с EDW) и смещает акцент с преобразования данных в момент записи в хранилище на преобразование в момент чтения. Основной риск — превращение озера в болото (Data Swamp), что практически гарантировано при отсутствии у компании выверенных практик по работе с данными и метаданными.

 

Интеграция через виртуализацию позволяет работать с данными на основе концептуальной модели предметной области, при этом, данные не перемещаются в новое хранилище, как в случае с EDW / Data Lake подходами, а остаются в существующих информационных системах. Метаинформация об источниках, структурах и способах подъёма данных (Data Lifting) до концептуального уровня хранится в корпоративной базе знаний.

Зачем и для чего она нужна?

Цель внедрения системы виртуализации данных — упрощения доступа к данным, а также унификация и стандартизация принятых в компании подходов к работе с информацией. Создаётся общая для всех потребителей данных концептуальная схема, отражающее содержимое востребованных информационных систем компании (в идеале — всех корпоративных источников информации).

 

За счёт наличия единой концептуальной схемы и организованного однообразного доступа к данным, повышается их доступность, а также сокращается время необходимое для преобразования данных в нужную для принятия бизнес-решений форму.

Какие дает преимущества по сравнению с другими подходами интеграции данных?

Техническое преимущество заключается в том, что не требуется создавать новое хранилище данных и поддерживать его синхронизацию с первоисточниками. В этом фундаментальное отличие от подходов EDW и Data Lake.

 

Организационное преимущество — в повышении культуры работы с данными. Стандартизация процессов (в том числе по работе с метаданными) и актуализация концептуальной модели становятся постоянными задачами, что позволяет компании расширять базу знаний и использовать её для построения новых сервисов. В итоге, снижается стоимость хранения и использования данных.

Виртуализация данных на основе семантического стека технологий. Зачем и почему?

Семантический стек технологий позволяет создать систему виртуализации данных полностью опираясь на открытые стандарты и продукты с открытым исходным кодом. Отсутствие привязки к проприетарным продуктам делает возможным менять каждый компонент системы и тем самым достигать оптимальной конфигурации, удовлетворяющей потребности компании.

 

Например, мы (DataFabric) в своих решениях по виртуализации данных использует Apache Kafka, Drools, Postgresql, MongoDB, ScyllaDB, Apache Flink, Blazegraph и другие открытые компоненты. При этом ядро системы включает в себя ключевые компоненты семантического стека: RDF, SPARQL и OWL.

 

Ключевая особенность семантического подхода заключается в требовании к формальной интерпретируемости (концепция “знания как код”) концептуальной схемы. Для эксплуатации это является плюсом, т.к. позволяет без усилий интегрировать схему во все программные решения компании, что является драйвером роста уровня стандартизации и цифровизации.

 

Формализованная концептуальная модель позволяет создавать различные специализированные решения, упрощающие работу с данными. Например, “интеллектуальные” графические интерфейсы позволяющие конструировать согласованные с моделью запросы методами визуального программирования, без использования SQL и необходимости привлекать IT-специалистов. Такие интерфейсы снижают требования к технической подкованности пользователя и еще более сокращают дистанцию между данными и их потребителями.

Пример проекта, где центральным компонентом является система виртуализации.

Другим примером является проект, в котором перед DataFabric стояла задача разработать скоринг-систему оценки заёмщика с условием, что правила скоринга должны описываться в терминах концептуальной модели. Для движка исполнения правил был выбран Drools, а возможность использования в правилах концептуальной модели достигалась за счёт кодогенерации. Таким образом, оператор системы освобождается от использования специального языка запросов к базе знаний (SPARQL в нашем случае) и не имеет представления о количестве и содержании таблиц нижележащей базы данных, что позволяет ему писать простые, проверяемые правила.

Почитать еще

| Аналитика бизнеса

Информационный шум

Чтобы тщательно, точно и четко информировать, мы должны определить предполагаемый сигнал, а затем усилить его,

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-01-28T19:09:56+02:00