Big data. Аналитика больших данных

Интерфейс Spotfire остается последовательным, анализируете ли вы небольшой набор данных или выполняете расширенную аналитику на большом кластере данных со сложными данными из датчиков, социальных сетей, точек продаж и источников геолокации.

Пользователи любого уровня навыков перемещаются с богатыми, проницательными панелями мониторинга и аналитическими рабочими процессами, просто взаимодействуя с визуализацией, которые представляют собой совокупности миллиардов точек данных.

Подключение больших данных для высокопроизводительной аналитики

Spotfire предлагает три основных типа встроенной интеграции с Hadoop и другими большими источниками данных:

Визуализация данных: Собственные готовые коннекторы данных, которые облегчают быструю интерактивную визуализацию данных.
Выполнение вычислений:

Приведите движок к данным: интеграция с инфраструктурами распределенных вычислений с использованием данных, которые позволяют проводить вычисления данных любой сложности в больших данных.

Принесите данные движку: интеграция с внешними статистическими механизмами, которые получают данные непосредственно из любого источника данных, включая традиционные базы данных

Вместе эти способы интеграции предлагают сочетание визуального обнаружения данных и расширенной аналитики. Они позволяют бизнес-пользователям получать доступ, объединять и анализировать данные из любых базовых структур данных с помощью панелей мониторинга и рабочих процессов, которые являются мощными и удобными в использовании.

Коннекторы для больших данных

Разъемы Spotfire Big Data поддерживают режимы доступа к данным, в памяти и по требованию. В результате этой гибкости доступа к данным становятся возможными быстрые интерактивные визуализации, так что вычисления данных происходят в хранилищах данных, и данные перемещаются в клиентскую память, если и когда это необходимо.

Собственные разъемы данных Spotfire включают в себя:

Сертифицированные соединители данных Hadoop для Apache Hive, Apache Spark SQL , Cloudera Hive, Cloudera Impala, Databricks Cloud, Hortonworks, сверление карт и основные HAWQ
Другие сертифицированные большие разъемы данных включают Teradata, Teradata Aster и Netezza
Соединители для источников данных источников данных и источников данных OSI PI

Распределенные вычисления In-Datasource

В дополнение к удобным операциям Spotfire с точным SQL, которые распространяются в источнике данных, могут быть инициированы расширенные алгоритмы статистического и машинного обучения от Spotfire для запуска in-datasource на очень больших наборах данных, только возвращая результаты, необходимые для визуализации в Spotfire:

Объединяя все это

Объединение всех этих мощных функций означает, что очень сложные и надежные аналитические варианты использования могут быть инкапсулированы в простые интерактивные рабочие процессы . Это позволяет бизнес-пользователям визуализировать, анализировать и делиться результатами, не беспокоясь о деталях базовой архитектуры данных.

Пример: интерфейс Spotfire для настройки, запуска и визуализации результатов модели, которая идентифицирует характеристики потерянных отправлений. Благодаря этому интерфейсу бизнес-пользователи могут выполнять вычисления с использованием как TERR, так и распределенной вычислительной инфраструктуры H2O в отношении данных транзакций транзакций, хранящихсяbв кластере Hadoop.

Продвинутая и прогнозирующая аналитика для больших данных

Пользователи взаимодействуют с панелью инструментов Spotfire , чтобы управлять богатым набором расширенных возможностей, которые позволяют прогнозировать, моделировать и оптимизировать. С большими данными анализ может быть выполнен in-datasource, только возвращая скопления и результаты, необходимые для заполнения визуализации Spotfire.

Контент-аналитика для больших данных

Spotfire обеспечивает визуализацию и аналитику в основном неиспользованном измерении больших данных: неструктурированный текст, который фиксируется, но скрыт в документах, отчетах, заметках CRM, веб-журналах, социальных сообщениях и других источниках. Spotfire позволяет визуально анализировать текстовые данные на 27 языках и сочетать их со структурированными данными, чтобы добавить контекст и детализировать и получить более глубокие идеи.

Анализ местоположения для больших данных

Многослойные карты с высоким разрешением – отличный способ визуализации больших данных. Богатые возможности сопоставления Spotfire позволяют создавать карты с таким количеством ссылочных и функциональных слоев, сколько вам нужно, включая рассчитанные расширенные функции аналитики. В дополнение к географическим картам Spotfire поддерживает пользовательские карты для визуализации данных для складов, фабричных этажей, полупроводниковых пластин и многих других.

Машинное обучение для больших данных

Широкий класс методов машинного обучения доступен в Spotfire как функции данных точек и щелчков, которые пользователи могут вызывать. Ученые-исследователи имеют доступ к базовому R-коду и могут расширять коллекцию функций данных. Функции машинного обучения разделяются с сообществом пользователей для удобства повторного использования.

Методы машинного обучения для переменных непрерывного и категориального ответа доступны в Spotfire и TERR, включая:

Аналитика событий в реальном времени для больших данных

Впечатления от визуальной аналитики и моделирования в Spotfire можно развернуть, нажав кнопку, в системы обработки событий и забивать / запускать потоковые данные в режиме реального времени. Это позволяет отслеживать данные в реальном времени и предупреждать конечных пользователей, таких как маркетологи или инженеры, при возникновении аномалии или появлении новой тенденции.

Предупреждения могут объединять последние данные событий с историческими данными, обеспечивая контекст, позволяющий пользователям исследовать важность события и быстро принимать решение о любом вмешательстве.

TIBCO Streambase интегрирована с Spotfire для такой аналитики потокового потока в реальном времени. Streambase выполняет математику в реальном времени при потоковой передаче данных; используя правила и модели, опубликованные в Spotfire. Streambase применяет информацию Spotfire для потоковой передачи данных в автоматическом режиме, вызывая уведомления по широкому спектру каналов, включая текстовые, электронные, базы данных и BPM-системы.

Ключевая особенность

Масштабируемые визуализации данных

Spotfire большие визуализации данных данных могут масштабироваться, чтобы представлять миллиарды строк данных в рамках анализа

Интуитивно понятный пользовательский интерфейс

Контрольные панели Spotfire и аналитические рабочие процессы могут инкапсулировать сложные прецеденты, которые позволяют бизнес-пользователям визуализировать, анализировать, запускать расчеты и делиться результатами.

Гибкая архитектура данных

Непревзойденный пользовательский опыт Spotfire становится возможным благодаря богатству возможностей для доступа к данным любого размера, выполнения вычислений любого типа и эффективной визуализации агрегаций данных или деталей на уровне строк.

Гибкая платформа

Быстрая платформа Spotfire позволяет бизнес-аналитикам управлять расширенными аналитическими рабочими процессами и приложениями для больших данных и стать действительно управляемыми данными.

Как ориентироваться в больших объёмах данных, с одновременным обнаружением визуальных данных

Технологии данных стремительно меняются, но принципы неизменны и спустя 30 лет

ВВЕДЕНИЕ

Данные – это сердце TIBCO Spotfire®. Крайне важно понимать, как они загружаются, но не менее важно то, как посредством Spotfireони потребляются и обрабатываются. Многие думают, что качественные изменения в области хранения и обработки данных, а также новые технологии, способны изменить подход к доступу к данным. На самом деле, те же главные вопросы необходимо задать себе при работе с любым источником данных. Давайте отойдём от технического жаргона и сформулируем реальный сценарий, основанный на простой физике. Вы увидите, что принципы, применявшиеся 30 лет назад, применимы и по сей день.

НАЗАД К ИСТОКАМ

Представьте себе, что вы вернулись на 30 лет назад и работаете в офисе специалистом по анализу данных в небольшой стране. Вам необходимо проанализировать данные, хранящиеся в нескольких картотеках. Они представляют собой медицинские данные 5 миллионов граждан. Ваш босс обращается к вам с просьбой узнать, сколько раз за жизнь один пациент в среднем обращается к врачу. Вопрос простой, ответ имеет форму простого числа с плавающей запятой. Одним из решений данной задачи может быть пойти в отдел учёта, снять копии всех записей, касающихся визитов врача каждого из пациентов, доставить их к себе в офис и пересчитать их. Другой способ – это затребовать записи, просканировать их, скомпилировать результат и отправить их вам.

Какие первоначальные выводы мы можем сделать по каждому из методов, и какие вопросы при этом останутся?

Первый способ – крайне трудоёмкий. Вы будете вынуждены тащить все записи до лифта только для того, чтобы их пересчитать, хотя можете сделать это внизу. Но в то же время:

Пользователи взаимодействуют с панелями «point-and-click», которые вызывают сценарии, используя экземпляр TERR, встроенный в Spotfire.

Сценарии TERR инициируют распределенные задания вычислений через Map / Reduce, H2O , SparkR или Fuzzy Logix.

Эти рабочие места приводят высокопроизводительные механизмы, развернутые на узлах Hadoop или других источниках данных.

TERR может быть развернут как усовершенствованный движок аналитики в узлах Hadoop, которые управляются MapReduce или Spark. Его также можно вызвать на узлах Teradata.

Результаты визуализируются в Spotfire.
Второй способ выглядит более эффективным. Однако:

Сколько запросов необходимо будет заполнить отделу учёта?

Как обработать более сложные запросы, например, разделение по возрасту и месту жительства?

Эти рабочие места приводят высокопроизводительные механизмы, развернутые на узлах Hadoop или других источниках данных.

Если отделу учёта нужно будет сделать байесовский вывод, как он это сделает?

Основа обнаружения визуальных данных большого объёма заключается в том, чтобы иметь доступ к ним различными способами одновременно, через один анализ или панель управления.

В ПАМЯТИ

В режиме внутренней памяти Spotfire считывает все «сырые» данные из базы данных, файла или системы в свою внутреннюю память. Затем он сортирует данные в формате, позволяющем производить расчёты, необходимые для быстрой и эффективной визуализации.

Как видно, данная техника аналогична первому методу доступа к медицинским записям. Таким образом мы можем рассмотреть все предыдущие «за» и «против»:

Метод внутренней памяти выглядит трудоёмким, так как возникает необходимость копирования всех данных в сети. Однако:

Вы готовы ждать столько, сколько потребуется для загрузки всех данных?

Получив все данные, вы сможете ответить на все вопросы без необходимости возвращаться к изначальной базе данных или системе.

Как вы узнаете о наличии новых данных, и как вы их получите?

Если вы отключитесь от сети, вы сможете продолжить работу с копией данных.

Как повлияет скорость и размер сети на вашу работу?

Сколько памяти потребуется для хранения данных и работы с ними?

Какие меры безопасности будет необходимо предпринять при работе с такой важной информацией?
Второй способ выглядит более эффективным. Однако:

Сколько запросов необходимо будет заполнить отделу учёта?

Как обработать более сложные запросы, например, разделение по возрасту и месту жительства?

Эти рабочие места приводят высокопроизводительные механизмы, развернутые на узлах Hadoop или других источниках данных.

Если отделу учёта нужно будет сделать байесовский вывод, как он это сделает?

Очевидным ограничением будет являться то, что не сможете считать больше данных, чем позволяет доступный объём памяти. На вашем стационарном компьютере или ноутбуке у вас может быть 4, 8 или 16 Гб памяти. На серверах, использующих веб-проигрыватель или службы автоматизации TIBCO Spotfire® доступны 32, 64 и более гигабайт памяти. Spotfire способен загрузить более 100 гигабайт данных, но это займёт некоторое время.

Системы баз данных уровня предприятия часто способны хранить петабайты данных, при этом быстро и эффективно обрабатывая запросы. Однако не все базы данных создаются одинаковыми, поэтому следует провести некоторые тестовые запросы перед тем, как перейти к такому режиму работы.