Виртуализация данных
Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их структуре и принадлежности к конкретной информационной системе.
- Аналитика бизнеса
- Технологии аналитики
- Виртуализация данных
Оглавление
Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их структуре и принадлежности к конкретной информационной системе.
Хотя виртуализация данных имеет множество применений, данная статья ориентирована прежде всего на задачу интеграции корпоративных источников данных. Исторически такая задача решалась через преобразование сырых данных в единый формат и перенос их в корпоративные хранилища (EDW), а оттуда — в витрины данных (Data Marts). Такие системы весьма дороги в развертывании и обслуживании и требуют тщательного предварительного планирования. С развитием Hadoop выкристаллизовалась концепция озера данных (Data Lake), вмещающего в себя как структурированные так и неструктурированные данные. Такой подход также предполагает перемещение данных в единое корпоративное хранилище (более дешевое в сравнении с EDW) и смещает акцент с преобразования данных в момент записи в хранилище на преобразование в момент чтения. Основной риск — превращение озера в болото (Data Swamp), что практически гарантировано при отсутствии у компании выверенных практик по работе с данными и метаданными.
Интеграция через виртуализацию позволяет работать с данными на основе концептуальной модели предметной области, при этом, данные не перемещаются в новое хранилище, как в случае с EDW / Data Lake подходами, а остаются в существующих информационных системах. Метаинформация об источниках, структурах и способах подъёма данных (Data Lifting) до концептуального уровня хранится в корпоративной базе знаний.
Зачем и для чего она нужна?
Цель внедрения системы виртуализации данных — упрощения доступа к данным, а также унификация и стандартизация принятых в компании подходов к работе с информацией. Создаётся общая для всех потребителей данных концептуальная схема, отражающее содержимое востребованных информационных систем компании (в идеале — всех корпоративных источников информации).
За счёт наличия единой концептуальной схемы и организованного однообразного доступа к данным, повышается их доступность, а также сокращается время необходимое для преобразования данных в нужную для принятия бизнес-решений форму.
Какие дает преимущества по сравнению с другими подходами интеграции данных?
Техническое преимущество заключается в том, что не требуется создавать новое хранилище данных и поддерживать его синхронизацию с первоисточниками. В этом фундаментальное отличие от подходов EDW и Data Lake.
Организационное преимущество — в повышении культуры работы с данными. Стандартизация процессов (в том числе по работе с метаданными) и актуализация концептуальной модели становятся постоянными задачами, что позволяет компании расширять базу знаний и использовать её для построения новых сервисов. В итоге, снижается стоимость хранения и использования данных.
Виртуализация данных на основе семантического стека технологий. Зачем и почему?
Семантический стек технологий позволяет создать систему виртуализации данных полностью опираясь на открытые стандарты и продукты с открытым исходным кодом. Отсутствие привязки к проприетарным продуктам делает возможным менять каждый компонент системы и тем самым достигать оптимальной конфигурации, удовлетворяющей потребности компании.
Например, мы (DataFabric) в своих решениях по виртуализации данных использует Apache Kafka, Drools, Postgresql, MongoDB, ScyllaDB, Apache Flink, Blazegraph и другие открытые компоненты. При этом ядро системы включает в себя ключевые компоненты семантического стека: RDF, SPARQL и OWL.
Ключевая особенность семантического подхода заключается в требовании к формальной интерпретируемости (концепция “знания как код”) концептуальной схемы. Для эксплуатации это является плюсом, т.к. позволяет без усилий интегрировать схему во все программные решения компании, что является драйвером роста уровня стандартизации и цифровизации.
Формализованная концептуальная модель позволяет создавать различные специализированные решения, упрощающие работу с данными. Например, “интеллектуальные” графические интерфейсы позволяющие конструировать согласованные с моделью запросы методами визуального программирования, без использования SQL и необходимости привлекать IT-специалистов. Такие интерфейсы снижают требования к технической подкованности пользователя и еще более сокращают дистанцию между данными и их потребителями.
Пример проекта, где центральным компонентом является система виртуализации.
Другим примером является проект, в котором перед DataFabric стояла задача разработать скоринг-систему оценки заёмщика с условием, что правила скоринга должны описываться в терминах концептуальной модели. Для движка исполнения правил был выбран Drools, а возможность использования в правилах концептуальной модели достигалась за счёт кодогенерации. Таким образом, оператор системы освобождается от использования специального языка запросов к базе знаний (SPARQL в нашем случае) и не имеет представления о количестве и содержании таблиц нижележащей базы данных, что позволяет ему писать простые, проверяемые правила.
Почитать еще
Скользкий склон безудержной семантики
Недавняя статья под названием «Спящее будущее визуализации данных? Фотография »расширяет определение визуализации данных до нового предела.
Data mining средства обнаружения данных могут создавать ценность для бизнеса?
Мы живем во время, когда данные вокруг нас. В эпоху цифровых технологий те, кто может выжать
Что такое гипер-персонализация? Преимущества, структура и примеры
Представьте себе сценарий встречи с кем-то много раз: Представьте, что человек узнает ваше имя, ваши
Введение в анализ временных рядов
Хотя для анализа данных используются все многочисленные передовые инструменты и методы, такие как наука о
Визуализация данных и виртуальная реальность
Время от времени кто-то заявляет, что визуализация данных может быть улучшена при просмотре в виртуальной
Структурированные и неструктурированные данные
Из-за всей шумихи вокруг больших данных и способов их использования компаниями вы можете спросить: «Какие
Что может сделать машинное обучение для вашего бизнеса прямо сейчас?
Этим вопросом задается множество бизнес-лидеров, поскольку ежедневно новшества в сфере ИИ и машинного обучения расширяют
История развития моделей данных
Итак, прыгайте на борт и наслаждайтесь путешествиями во времени наших попыток справиться с временностью в
Информационный шум
Чтобы тщательно, точно и четко информировать, мы должны определить предполагаемый сигнал, а затем усилить его,