ETL или подготовки данных

Технологии извлечения, преобразования и загрузки (ETL), которыми управляют исключительно ИТ, до недавнего времени были основным инструментом, используемым для объединения данных из нескольких источников и, таким образом, позволяли принимать важные бизнес-решения для организаций.

Оглавление

Технологии извлечения, преобразования и загрузки (ETL), которыми управляют исключительно ИТ, до недавнего времени были основным инструментом, используемым для объединения данных из нескольких источников и, таким образом, позволяли принимать важные бизнес-решения для организаций. Но с появлением процесса подготовки данных самообслуживания бизнес-пользователи и отраслевые эксперты (МСП) могут найти эти идеи самостоятельно.

 

«В некоторых организациях каждый инженер по обработке данных / ИТ-ресурс, как ожидается, будут поддерживать более сотни бизнес-пользователей или отраслевых экспертов, создавая узкое место, которое может задержать появление критических бизнес-идей», – сказал Фарназ Эрфан, старший директор Paxata. Означает ли это, что ETL выходит? Или есть варианты использования для обоих? Эрфан говорил о сходствах и различиях между ETL и подготовкой данных в недавнем интервью DATAVERSITY®.

Cходства ETL и подготовки данных

Она сказала, что многие полагают, что ETL и подготовка данных – это одно и то же, потому что концептуально они очень похожи, и оба решают одну и ту же проблему. Данные в необработанном формате никогда не готовы для аналитики или машинного обучения, и оба инструмента преобразуют данные в форму и форму, которые приближают их к тому, чтобы стать единым источником правды для таких применений, как аналитика или машинное обучение, но они не являются То же самое, сказала она.

Различия ETL и подготовки данных

Различия между ETL и подготовкой данных связаны со сложностью парадигмы, типом необходимой подготовки и персоной пользователя, и эти различия определяют тип сценариев использования, которые они обслуживают на рынке.

 

1. Персона пользователя

 

Инструменты ETL были созданы более 25 лет назад для технических пользователей, а инструменты подготовки данных ориентированы на современных бизнес-пользователей. «Это может быть аналитик, менеджер по продажам, менеджер по маркетингу – эти инструменты могут использовать разные люди», – прокомментировал Эрфан.

 

Поставщики, предлагающие инструменты для подготовки данных, обычно используют визуальную форму представления данных, аналогичную электронной таблице Excel, где пользователи могут видеть данные в центре своего рабочего пространства. Это позволяет нетехническим пользователям исследовать проблемы качества данных , подготавливать данные, проверять их и видеть, как значения данных изменяются при применении различных правил или условий.

 

2. Парадигма

 

ETL опирается на заранее определенный набор правил и рабочих процессов, сказала она. Потенциальные проблемы, такие как орфографические ошибки или дополнительные символы, должны быть заранее предвидены, поэтому правила того, как решать эти проблемы, могут быть встроены в сквозной рабочий процесс.

 

И наоборот, инструмент подготовки данных, использующий встроенные алгоритмы, способен обнаруживать и исследовать данные по мере их прохождения через рабочий процесс. «Например, алгоритмы, основанные на машинном обучении или обработке естественного языка, могут распознавать вещи, написанные по-разному, но на самом деле одинаковые».

 

Она привела пример города под названием «Св. Луи », и как его можно было ввести несколькими способами, или может быть несколько городов с одинаковыми названиями, написанными по-разному. В рабочем потоке ETL правила для встречи с каждым конкретным вариантом должны быть запрограммированы заранее, а варианты, которые не запрограммированы, пропускаются. Инструмент подготовки данных может найти различия в правописании без помощи, поэтому пользователю не нужно предвидеть все возможные варианты. По ее словам, этот инструмент может предложить решение по каждому варианту названия этого города, предоставляя возможность улучшить данные до их использования.

 

«Это огромный сдвиг с точки зрения качества данных, которые из него поступают, а также увеличения скорости, с которой я могу получать свои данные. Сравните это с инструментом ETL, который требует, чтобы пользователь заранее определил правила, которые должны быть применены, и угадал, какие возможные способы его написания ».

 

3. Сложность данных

 

Эрфан, которая начала свою карьеру в традиционном пространстве управления данными / ETL, сказала, что основная часть ETL по-прежнему сосредоточена на реляционных источниках данных, поскольку их сильные стороны заключаются в массовой загрузке, преобразовании таблиц и реляционных источников данных, а также в CRM, Salesforce и маркетинговые приложения.

 

Подготовка данных по-прежнему сильна как на реляционной стороне, так и на более сложных типах данных, таких как JSON или XML, где существуют вложенные структуры данных. Инструмент подготовки данных сглаживает данные в табличном формате, возвращаясь к той более простой для понимания парадигме Excel, которая знакома нетехническим пользователям. «Вы можете ясно видеть весь контент данных, чтобы подготовить его к анализу, вместо того, чтобы пытаться понять это в виде вложенной структуры», – сказала она.

Преимущества инструментов подготовки данных

Пространство ETL требует соответствия и четко определенной структуры, или многомерной модели для публикации в. Изменения в структуре данных требуют подхода «обратно в чертеж», чтобы включить преобразования, и затем данные должны быть повторно опубликованы, что приведет к гораздо более длительному процессу. И наоборот, с помощью решения для подготовки данных, которое может обрабатывать данные целиком, а не только образцы, алгоритмы машинного обучения обрабатывают больше данных произвольной формы, и, следовательно, итерации могут быть выполнены быстро, что делает процесс более гибким. «Вместо того, чтобы делать месяцы, они могут быть сделаны за несколько дней», – сказала она.

 

С точки зрения Эрфана, наибольшая выгода для подготовки данных – отсутствие узких мест в ИТ. Вместо этого бремя создания и подготовки активов данных для всей организации можно разделить с конечными пользователями, предоставив им инструменты и возможность делать это самостоятельно. Бизнес-группы уже самостоятельно занимались визуализацией и инструментальными панелями: «Так почему же они не могли самостоятельно подготовить данные для аналитики, не дожидаясь ИТ-ресурсов?»

Шаги к успеху

Для некоторых компаний небольшая группа или отдельное лицо заявляют о необходимости решения для подготовки данных . В других это происходит в результате процесса демократизации данных в масштабах всей организации. В любом случае, по ее словам, первым шагом для организации является определение «зрелости» в соответствии с их собственными целями в долгосрочной перспективе.

 

Подходящими начальными вопросами для этого процесса могут быть:

  • Какие шаги к зрелости?
  • Где вы хотите подготовить данные?
  • Будут ли пользователи ограничены небольшой группой или важнее сотрудничество?

Следующим шагом к зрелости является автоматизация. Вопросы для этого этапа могут быть:

  • Будут ли все рабочие нагрузки по подготовке данных оставаться на специальном уровне?
  • Будет ли подготовка данных оставаться в пределах небольшого числа пользователей, или она будет расширена, чтобы предлагать сертифицированные в масштабе всей организации активы данных, которые могут использовать другие люди?
  • Как подготовка данных будет интегрирована с каталогом данных и существующими инструментами BI?

Пересечение: где ETL встречает подготовку данных

Эрфан считает, что ETL находится на этапе изменения. Решения по подготовке данных разрушают рынок, но в то же время «компании ETL и BI также добавляют подготовку данных, потому что это потребность, которую они видят на рынке», – сказала она. Существует много ситуаций, когда решение ETL по-прежнему является лучшим выбором, особенно для случаев использования, когда миллиарды строк данных преобразуются и загружаются в хранилища данных, а также в тех случаях, когда задания должны запускаться автоматически каждый день без изменения схемы данные. «Вещи, которые предсказуемы и повторяемы, проходят через рабочий процесс ETL».

 

Одна пересекающаяся область находится между ETL и инструментами визуализации. Например, встроенный каталог в платформе важен, именно здесь сертифицированные активы данных могут стать доступными для бизнес-групп. «У вас все еще есть ETL, но у вас также есть инструменты визуализации данных». Инструменты подготовки данных в целом могут заполнить пробел между ETL и инструментами визуализации, удовлетворяя потребности в исследованиях и подготовке бизнес-пользователей за пределами ИТ.

 

Другой пример использования, который она привела, – использование инструмента подготовки данных для информирования логики программирования преобразований массовой загрузки с использованием ETL. «Это своего рода платформа проектирования, если хотите, чтобы добавить новый источник в существующие потоки ETL».

Paxata

Paxata играет важную роль в области подготовки данных самообслуживания, создавая ее как новую категорию продуктов. Компания была основана с целью предоставления бизнес-командам и отраслевым экспертам тех же возможностей, к которым имели доступ технические и ИТ-группы. Продукт основан на концепции подготовки данных самообслуживания, когда отдельный аналитик может получать и смешивать данные. По мере роста рабочей нагрузки на уровне предприятия управление и автоматизация становятся важными, и платформа может масштабироваться вместе с меняющимися приоритетами.

 

Эрфан сказал: «По мере того, как вы растете, как вы можете гарантировать, что ваша подготовка данных будет расти вместе с вами во всех случаях использования, которые вы предполагаете? Обращать внимание на это очень важно для правильного инвестирования ».

Почитать еще

| Аналитика бизнеса

Что такое нейронные сети (ANN)

Человеческий мозг является сложным и интеллектуальным “компьютером”. Взяв за основу принцип образования нейронных связей в

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-01-28T17:26:16+02:00