//Виртуализация данных. Cовременное решение для интеграции данных

Виртуализация данных. Cовременное решение для интеграции данных

Далеко не всегда организации имеют возможность быстро интегрировать данные, чтобы обеспечить скорость предоставления информации из множества источников, соответствующую постоянно растущим требованиям бизнес-пользователей. Традиционные инструменты интеграции не справляются с этой задачей, поскольку предоставляют данные в пакетном режиме по расписанию и не поддерживают современные сложные типы и форматы данных. 

Оглавление

Виртуализация данных — это передовой метод интеграции данных, отвечающий современным требованиям и закладывающий основу для решений будущего. В этом документе рассматриваются цели интеграции, приводятся недостатки традиционных решений и дается описание виртуализации данных как ключевого метода, позволяющего успешно выполнять оперативную интеграцию информации.

Введение в виртуализацию данных

Современная эпоха характеризуется невероятным ростом объема данных, разнообразием их типов и форматов, постоянно увеличивающейся скоростью поступления и обработки информации. Это стало возможным, помимо прочего, благодаря развитию облачных технологий и систем работы с большими данными. Однако из-за ограничений, присущих узкоспециализированным системам, многие источники данных остаются изолированными. Сегодня даже в озерах данных можно встретить огромное количество обособленных скоплений данных.

 

Для принятия оперативных решений бизнес-пользователям необходим мгновенный доступ к актуальной информации, но выполнение этого требования осложняется наличием разрозненных источников данных.

 

 

Кроме того, без предварительной интеграции данных невозможно
реализовать инициативы, связанные с переходом в облако, модернизацией приложений и аналитикой. Однако традиционные методы интеграции требуют слишком много ресурсов — и времени, и денег.

Традиционные технологии интеграции данных

Большинство схем интеграции данных подразумевают использование средств извлечения, преобразования и загрузки данных (ETL) или аналогичных им инструментов. Принципы ETL были предложены в 1970-х годах, и хотя за прошедшее время построенные на их основе процессы значительно усовершенствованы и разработаны во многих вариантах, они по-прежнему состоят из трех основных этапов:
  1. данные извлекаются из источников,

  2. преобразуются в структуру и формат, соответствующие целевой системе, в которую должны быть переданы (в хранилище операционных данных, витрину данных и т. п.),

  3. загружаются в эту целевую систему

Универсальных решений ETL не существует: для каждого случая разрабатываются и тестируются свои скрипты, отвечающие требованиям конкретных источников данных и целевых систем.

 

Иногда преобразование становится заключительным этапом (тогда процесс называется ELT), но базовый принцип тот же. После написания и отладки скрипты запускаются в работу, для этого применяется принцип пакетного копирования: в заранее установленное время большие объемы данных, выбранные из одного или более источников, передаются в консолидирующую систему с одновременным выполнением необходимых преобразований.

Процессы ETL имеют определенные преимущества, ради которых они применяются по сей день:

  • системы ETL очень эффективны при переносе огромных массивов данных;
  • эта технология устоявшаяся, понятная и поддерживаемая многими вендорами;
  • в инструменты ETL встроены развитые средства пакетного и массового перемещения данных;
  • в штате большинства организаций есть специалисты по ETL.

Однако в последние годы ландшафт данных заметно усложнился, а растущая потребность в извлечении ценной информации из консолидированных данных сделала очевидными недостатки средств ETL.

  • Перенос данных — не всегда лучший подход, поскольку он предполагает создание нового репозитория и его дорогостоящее сопровождение, осуществляемое большой группой специалистов.
  • В крупных организациях ежедневно могут выполняться тысячи процессов ETL, синхронизированных при помощи скриптов, которые в случае необходимости трудно изменить.
  • Поскольку в рамках процессов ETL данные предоставляются в пакетном режиме по расписанию, пользователям приходится какое-то время ждать их отправки. Доставку пакетов можно ускорить путем изменения настроек, но обеспечить мгновенную передачу данных по запросу все равно не удастся. Как правило, процессы ETL выполняются по ночам.
  • Процессы ETL не справляются с обработкой современных гигантских объемов информации, куда входят и сложные типы данных, например поминутные сведения о транзакциях и потоки показаний всевозможных датчиков.

Виртуализация данных

Интеграционная стратегия, основанная на виртуализации данных, подразумевает совершенно иной подход: не перенос данных на новое место для их консолидации, а формирование в режиме реального времени представления консолидированных данных, которые физически остаются в своих источниках.

 

Передовые решения для виртуализации данных формируют уровень доступа к ним, предназначенный для использования в масштабах всей организации и обеспечивающий универсальное подключение ко всем ее ключевым источникам данных.

 

Сотрудники, нуждающиеся в доступе к информации, делают запрос к уровню виртуализации, который извлекает необходимые данные из конкретных источников. Беря на себя функции обеспечения доступа, уровень виртуализации скрывает от пользователей лишние технические подробности, в том числе местонахождение и формат данных, предоставляя возможность задавать любые вопросы, получать на них ответы и не думать том, насколько сложны низкоуровневые механизмы, применяемые для решения тех или иных задач.

 

 

Работая с подобными решениями, бизнес-сотрудники, как правило, взаимодействуют с приложением, веб-порталом или иной реализацией пользовательского интерфейса, получающей нужные данные с уровня виртуализации. Архитектура подобного решения показана ниже на схеме: уровень виртуализации данных располагается между всеми источниками данных и всеми их потребителями — пользователями, приложениями и др.

Важно отметить, что при виртуализации данных репликация не производится, поэтому уровень виртуализации не содержит данных: на нем находятся только метаданные, необходимые для доступа к различным источникам. Уровень виртуализации данных отличается малой ресурсоемкостью и простотой реализации, но это далеко не все его преимущества. В частности, он позволяет легко внедрить общекорпоративную систему управления доступом к данным вместо того, чтобы реализовывать такие системы для каждого источника данных в отдельности. Кроме того, он выполняет функции центрального узла, к которому разработчики могут подключать API для доступа к различным источникам данных, имеющим разную степень структурированности.

 

В настоящее время виртуализация является самой передовой стратегией интеграции данных. Подобно традиционным решениям для интеграции, уровень виртуализации выполняет функции преобразования и контроля качества данных, одновременно обеспечивая работу в режиме реального времени с меньшими затратами, более высокой скоростью доступа и большей гибкостью. Виртуализация позволяет либо полностью заменить традиционные процессы и системы интеграции данных на основе витрин и хранилищ данных, либо дополнить их новыми возможностями.

 

Уровень виртуализации данных обеспечивает абстрагирование и предоставляет сервисы данных, легко интегрируемые с первоначальными и промежуточными источниками данных, процессами ETL, сервисными шинами предприятия (ESB), ПО промежуточного слоя, приложениями (облачными и локальными) и различными устройствами. Корпоративные ИТ-системы можно гибко соединять с различными пластами информации.

Виртуализация данных обеспечивает очевидные преимущества перед
традиционными методами интеграции данных, основанными на репликации.

  • Уровень виртуализации позволяет легко объединять разнородные источники (в том числе различные комбинации источников структурированных и неструктурированных данных) таким образом, что для конечного потребителя они выглядят как единый источник.
  • В решении для виртуализации могут быть реализованы дополнительные функции: интеллектуальные механизмы оптимизации запросов в реальном времени, средства кэширования и обработки данных в оперативной памяти, а также специализированные инструменты оптимизации, учитывающие ограничения источников, потребности приложений и доступность сети.
  • Любой первичный, промежуточный, интегрированный или виртуальный источник данных можно за считанные минуты предоставить через API в другом формате или по иному протоколу, обеспечивая контроль доступа.
  • Все данные доступны через единый виртуальный уровень, который позволяет оперативно обнаруживать проблемы, связанные с дублированием, согласованностью и качеством данных, и предоставляет приложениям универсальные средства управления и обеспечения безопасности.

Виртуализация данных имеет всего один недостаток: в отличие от процессов ETL, уровень виртуализации не поддерживает пакетное и массовое перемещение данных. Но, как уже отмечалось, виртуализацию данных можно применять совместно с ETL.

Пять категорий продуктов для виртуализации данных

С ростом популярности решений для виртуализации данных некоторые их возможности включаются в другие продукты либо предлагаются в виде встраиваемых модулей или дополнительных функций. В связи с этим важно отличать дополнения и встроенные средства виртуализации от полнофункциональных корпоративных платформ виртуализации данных, позволяющих обеспечивать необходимый уровень доступа к данным в масштабах всего предприятия.

Пять видов решений для виртуализации данных

Функции смешения данных. Такие функции часто встраивают в средства бизнесаналитики (BI). Механизмы смешения позволяют комбинировать несколько источников для передачи данных в инструментарий BI, но объединенные таким образом данные оказываются недоступны другим приложениям.

 

Модули сервисов данных. Поставщики хранилищ данных и пакетов для интеграции данных обычно предлагают такие модули за дополнительную плату. Они предоставляют развитые функции моделирования и преобразования данных, но, как правило, характеризуются низкой общей производительностью и оставляют желать лучшего в плане оптимизации запросов, кэширования, безопасности и поддержки источников неструктурированных данных. Перечисленные недостатки обусловлены тем, что такие модули обычно рассчитаны на прототипирование процессов ETL или инструментов управления мастерданными.

Средства «сиквелизации». Это относительно новая категория систем, предлагаемая в основном поставщиками платформ больших данных и дистрибутивов Hadoop. Такие системы виртуализируют технологии работы с большими данными и позволяют подключать к ним реляционные источники данных и неструктурированные файлы, формируя запросы на стандартном языке SQL. Подобные механизмы могут эффективно работать со стеком технологий больших данных, но в других применениях они бесполезны.

Облачные сервисы данных. Такие сервисы обычно содержат готовые механизмы интеграции с SaaS-продуктами, облачными приложениями, базами и некоторыми локальными инструментами, например Microsoft Excel. В отличие от решений для реальной виртуализации данных с многоуровневыми представлениями и делегируемым выполнением запросов, эти сервисы открывают доступ к стандартизованным API, облегчающим обмен данными с облачными источниками в проектах среднего масштаба. Однако их возможностей оказывается недостаточно при реализации проектов, связанных с анализом больших данных, критически важными корпоративными системами, мэйнфреймами, крупными базами данных, неструктурированными файлами и данными.

Платформы виртуализации данных. Они изначально создаются, чтобы предоставлять возможности виртуализации данных посредством единого уровня абстракции, соединяющего многих потребителей со многими источниками. Платформы виртуализации данных рассчитаны на обеспечение гибкости и высокой скорости работы в контексте
широкого круга применений независимо от специфики источников данных и потребителей. Такие платформы обеспечивают более высокую производительность, чем решения, созданные на основе ПО промежуточного слоя, и способны взаимодействовать с ними.

Десять фактов о виртуализации данных

Мы рассмотрели преимущества платформы виртуализации данных, позволяющей расширить возможност традиционного решения для интеграции данных или полностью заменить его. Подводя итоги, перечислим десять важных фактов о таких платформах.

Сопровождение  платформы обходится дешевле по сравнению с традиционными средствами интеграции.

 

Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, что исключает дополнительные затраты на репликацию и хранение.

Виртуализация ускоряет процессы управления данными.

 

Не нужно ждать результатов в течение нескольких часов или дней: при виртуализации нужная информация предоставляется в режиме реального времени.

Платформа виртуализации способна дополнять традиционное хранилище данных.

 

Виртуализацию данных можно внедрять и использовать совместно с имеющимися решениями, созданными на основе хранилищ данных.

Виртуализация обеспечивает максимальную  производительность.

 

В обычных системах производительность нередко снижается из-за ожидания передачи данных. Платформа виртуализации данных подключается непосредственно к источникам и предоставляет ценную информацию в режиме реального времени.

 
 

Виртуализация дает возможность использовать бизнес-аналитику, не прибегая к помощи ИТ-специалистов.

 

Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, который исключает необходимость дополнительных расходов на репликацию и хранение.

Платформа виртуализации предоставляет защищенную систему корпоративного управления данными.

 

Путем организации централизованного узла доступа ко всем видам информации и

метаданных предприятия можно обеспечить управление безопасностью, корпоративное управление данными и мониторинг производительности.

Виртуализация дает массу дополнительных возможностей помимо интеграции данных.

 

Виртуализация данных — это технология интеграции данных, существующая уже около десяти лет. В отличие от других средств интеграции данных, платформы виртуализации, как правило, обеспечивают оптимизацию производительности и предоставляют пользователям возможности самостоятельного поиска и анализа данных.

Виртуализация обеспечивает высокую  рентабельность  инвестиций.

 

Типичный проект виртуализации данных окупается менее чем за шесть месяцев после внедрения. По сравнению с традиционными методами интеграции данных сокращение сроков окупаемости составляет 50-80%.

1 9 p200h1ega80rv90ux42je9qo1nvhe5qf27tv7a54io - Виртуализация данных. Cовременное решение для интеграции данных

Виртуализация обладает большей гибкостью, чем традиционные методы.

 

Виртуализация данных обеспечивает легкое прототипирование, позволяя проверять новые технологические стратегии до их внедрения в масштабе предприятия.

Платформа виртуализации ― основа матрицы обработки больших данных.

 

Структура обработки больших данных, сформированная с использованием платформы виртуализации, интегрирует данные, обеспечивает их подготовку для прогнозной аналитики и предоставляет потребителям нужную информацию в режиме реального времени.

Tibco Virtualization Platform ― современная
платформа виртуализации данных

Tibco Virtualization Platform предлагает намного больше возможностей, чем другие решения для виртуализации данных.

Динамический каталог данных предоставляет удобный доступ к данным через интерфейс с возможностью поиска и отображения контекстных сведений.

Динамический оптимизатор запросов выбирает оптимальную стратегию выполнения каждого запроса, ускоряя доступ к данным.

Параллельная обработка данных в оперативной памяти обеспечивает непревзойденную производительность.

Специально разработанный интерфейс спроектирован с учетом требований бизнес- пользователей и ИТ- специалистов.

Набор автоматизированных средств управления жизненным циклом данных упрощает работу пользователей: они могут уделять меньше времени управлению  информацией и сконцентрироваться на использовании данных для принятия решения.

 

Современный уровень сервисов данных поддерживает OAuth 2.0, SAML, OpenAPI, OData 4 и другие облачные стандарты, обеспечивая легкую интероперабельность при взаимодействии с современными облачными системами.

Простые в использовании механизмы безопасности и корпоративного управления предоставляют защищенный выборочный доступ ко всему объему данных предприятия через единый узел контроля и

администрирования.

Технология доступна на ведущих облачных платформах: Amazon Web Services, Microsoft Azure, Docker.

Почитать еще

blog min 7 177x142 - Виртуализация данных. Cовременное решение для интеграции данных
Инструменты интеграции данных

Инструменты интеграции данных предназначены для широкого спектра сценариев использования, которые зависят от основных возможностей доставки

maxresdefault 177x142 - Виртуализация данных. Cовременное решение для интеграции данных
TIBCO Spotfire 11.0

Spotfire 11.0 представляет Spotfire Mods — легкий облачный фреймворк для создания новых интерактивных типов визуализаций, позволяющий создавать

Несколько видео о наших продуктах

085 - Виртуализация данных. Cовременное решение для интеграции данных
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
106 - Виртуализация данных. Cовременное решение для интеграции данных
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
1 11 - Виртуализация данных. Cовременное решение для интеграции данных
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-02-10T18:33:02+02:00