/, Технологии аналитики/Тенденции в аналитике больших данных

Тенденции в аналитике больших данных

илл Локонцоло, вице-президент по разработке данных в Intuit, прыгнул в озеро данных обеими ногами. Дин Эбботт, главный специалист по данным в Smarter Remarketer, выбрал облако.

Оглавление

Билл Локонцоло, вице-президент по разработке данных в Intuit, прыгнул в озеро данных обеими ногами. Дин Эбботт, главный специалист по данным в Smarter Remarketer, выбрал облако. По словам обоих, передовой край больших данных и аналитики, который включает в себя озера данных для хранения огромных хранилищ данных в собственном формате и, конечно, облачные вычисления, является движущейся целью. И хотя технологические возможности далеки от совершенства, просто ждать нельзя.

 

БОЛЬШЕ В МИРЕ СЕТИ: самые большие проблемы больших данных

 

«Реальность такова, что инструменты все еще развиваются, и обещание платформы [Hadoop] находится не на том уровне, на котором бизнес должен полагаться», – говорит Локонзоло. Но дисциплины больших данных и аналитики развиваются так быстро, что предприятиям приходится вмешиваться или рисковать остаться позади. «В прошлом для разработки новых технологий могли потребоваться годы, – говорит он. «Теперь люди итерируют и внедряют решения за считанные месяцы или недели». Итак, какие основные новейшие технологии и тенденции должны быть в вашем списке наблюдения или в вашей тестовой лаборатории? Computerworld попросил ИТ-лидеров, консультантов и отраслевых аналитиков взвесить. Вот их список.

1. Аналитика больших данных в облаке

Hadoop , инфраструктура и набор инструментов для обработки очень больших наборов данных, изначально была разработана для работы на кластерах физических машин. Это изменилось. «Сейчас доступно все больше технологий для обработки данных в облаке», – говорит Брайан Хопкинс, аналитик Forrester Research. Примеры включают размещенное в Amazon хранилище данных Redshift, сервис аналитики данных Google BigQuery, облачную платформу IBM Bluemix и сервис обработки данных Amazon Kinesis. «Будущее состояние больших данных будет гибридом локального и облачного хранилищ», – говорит он.

 

Smarter Remarketer, поставщик услуг аналитики, сегментации и маркетинга на основе SaaS, недавно перешел от собственной инфраструктуры баз данных Hadoop и MongoDB к Amazon Redshift , облачному хранилищу данных. Компания, базирующаяся в Индианаполисе, собирает данные о розничных продажах и демографических данных о покупателях в реальном времени и в реальном времени, а также поведенческие данные в реальном времени, а затем анализирует эту информацию, чтобы помочь ритейлерам создать целевую систему обмена сообщениями для получения желаемого ответа со стороны покупателей, в некоторых случаях в режиме реального времени.

 

По словам Эбботта, Redshift был более экономически эффективным для удовлетворения потребностей Smart Remarketer в данных, тем более что он обладает широкими возможностями отчетности для структурированных данных. И как хостинговое предложение, оно масштабируемое и относительно простое в использовании. «Дешевле расширить виртуальные машины, чем покупать физические машины, чтобы управлять собой», – говорит он.

 

Со своей стороны, Intuit из Маунтин-Вью, штат Калифорния, осторожно перешел к облачной аналитике, поскольку ему нужна безопасная, стабильная и контролируемая среда. На данный момент финансовая компания-разработчик хранит все в своем частном облаке Intuit Analytics. «Мы сотрудничаем с Amazon и Cloudera в том, что касается создания общедоступного, высокодоступного и безопасного аналитического облака, которое может охватить оба мира, но никто еще не решил эту проблему», – говорит Локонзоло. Однако переход к облаку неизбежен для такой компании, как Intuit, которая продает продукты, работающие в облаке. «Это приведет к тому, что все эти данные будут непозволительно переносить в частное облако», – говорит он.

2. Hadoop: новая операционная система для корпоративных данных

По словам Хопкинса, распределенные аналитические структуры, такие как MapReduce , превращаются в менеджеров распределенных ресурсов, которые постепенно превращают Hadoop в операционную систему данных общего назначения.С этими системами, говорит он, «вы можете выполнять множество различных операций с данными и аналитических операций, подключая их к Hadoop в качестве распределенной системы хранения файлов».

 

Что это значит для предприятия? Поскольку SQL, MapReduce, оперативная память, потоковая обработка, аналитика графиков и другие типы рабочих нагрузок могут работать на Hadoop с достаточной производительностью, все больше предприятий будут использовать Hadoop в качестве корпоративного центра данных. «Возможность выполнять различные типы [запросов и операций с данными] в отношении данных в Hadoop сделает дешевое универсальное место для размещения данных, которые вы хотите анализировать», – говорит Хопкинс.

 

Intuit уже опирается на свой фонд Hadoop. «Наша стратегия заключается в использовании распределенной файловой системы Hadoop, которая работает в тесном сотрудничестве с MapReduce и Hadoop, в качестве долгосрочной стратегии, обеспечивающей все виды взаимодействия с людьми и продуктами», – говорит Локонзоло.

3. Большие озера данных

Традиционная теория баз данных требует, чтобы вы проектировали набор данных до ввода каких-либо данных. Озеро данных, также называемое озером данных предприятия или центром данных предприятия, переворачивает эту модель с ног на голову, говорит Крис Керран, главный и главный технолог консультативной практики PricewaterhouseCoopers в США. «В нем говорится, что мы возьмем эти источники данных и поместим их все в большой репозиторий Hadoop, и мы не будем пытаться спроектировать модель данных заранее», – говорит он. Вместо этого он предоставляет инструменты для анализа данных, а также высокоуровневое определение того, какие данные существуют в озере. «Люди встраивают взгляды в данные по мере их продвижения. Это очень инкрементная, органическая модель для построения крупномасштабной базы данных », – говорит Керран. С другой стороны, люди, которые используют его, должны быть высококвалифицированными.

 «Люди встраивают представления в данные по мере их продвижения. Это очень инкрементная, органичная модель для построения крупномасштабной базы данных», – говорит Крис Курран из PwC.

По словам Локонцоло, в рамках своего облака Intuit Analytics у Intuit есть озеро данных, которое включает в себя пользовательские данные, а также корпоративные данные и данные сторонних производителей, однако основное внимание уделяется «демократизации» окружающих его инструментов, что позволяет деловым людям эффективно их использовать. Локонзоло говорит, что одной из его проблем с созданием озера данных в Hadoop является то, что платформа на самом деле не готова для предприятия. «Нам нужны возможности, которыми традиционные корпоративные базы данных обладали в течение десятилетий – мониторинг контроля доступа, шифрование, защита данных и отслеживание происхождения данных от источника к месту назначения», – говорит он.

4. Больше прогнозирующей аналитики

По словам Хопкинса, при работе с большими данными у аналитиков есть не только больше данных, но и вычислительная мощность для обработки большого количества записей со многими атрибутами. Традиционное машинное обучение использует статистический анализ, основанный на выборке из общего набора данных. «Теперь у вас есть возможность делать очень большое количество записей и очень большое количество атрибутов на запись», и это повышает предсказуемость, говорит он.

 

Сочетание больших данных и вычислительной мощности также позволяет аналитикам исследовать новые поведенческие данные в течение дня, такие как посещенные веб-сайты или местоположение. Хопкинс называет это «редкими данными», потому что, чтобы найти что-то интересное, вы должны просмотреть множество данных, которые не имеют значения. «Попытка использовать традиционные алгоритмы машинного обучения для этого типа данных была вычислительно невозможна. Теперь мы можем принести этой проблеме дешевую вычислительную мощность », – говорит он. «Вы формулируете проблемы совершенно по-другому, когда скорость и память перестают быть критическими проблемами», – говорит Эбботт. «Теперь вы можете найти, какие переменные лучше всего аналитически, используя огромные вычислительные ресурсы для решения проблемы. Это действительно изменит правила игры ».

 

«Для обеспечения возможности анализа в реальном времени и прогнозного моделирования из одного и того же ядра Hadoop нас интересует именно это», – говорит Локонзоло. Проблема была в скорости, поскольку Hadoop требовалось в 20 раз больше времени, чтобы получить ответы на вопросы, чем в более устоявшихся технологиях. Таким образом, Intuit тестирует Apache Spark , крупномасштабный механизм обработки данных, и связанный с ним инструмент SQL-запросов, Spark SQL . «У Spark есть этот быстрый интерактивный запрос, а также графические сервисы и возможности потоковой передачи. Он хранит данные в Hadoop, но обеспечивает достаточную производительность, чтобы сократить разрыв для нас », – говорит Локонзоло.

5. SQL на Hadoop: быстрее, лучше

Если вы умный программист и математик, вы можете добавить данные и проанализировать все в Hadoop. Это обещание – и проблема, говорит Марк Бейер, аналитик Gartner. «Мне нужен кто-то, чтобы поместить это в формат и языковую структуру, с которыми я знаком», – говорит он. Вот где приходит SQL для продуктов Hadoop, хотя любой знакомый язык может работать, говорит Бейер. Инструменты, поддерживающие SQL-подобные запросы, позволяют бизнес-пользователям, которые уже понимают SQL, применять аналогичные методы к этим данным. По словам Хопкинса, SQL на Hadoop «открывает двери для Hadoop на предприятии», поскольку предприятиям не нужно вкладывать средства в высококлассных специалистов по анализу данных и бизнес-аналитиков, которые могут писать сценарии с использованием Java, JavaScript и Python – что-то для пользователей Hadoop. традиционно нужно было сделать.

 

В этих инструментах нет ничего нового. Apache Hive в течение некоторого времени предлагал структурированный структурированный SQL-подобный язык запросов для Hadoop. Но коммерческие альтернативы от Cloudera, Pivotal Software, IBM и других поставщиков не только предлагают гораздо более высокую производительность, но и становятся все быстрее. Это делает технологию подходящей для «итеративной аналитики», когда аналитик задает один вопрос, получает ответ, а затем задает другой. Этот тип работ традиционно требовал создания хранилища данных. По словам Хопкинса, SQL на Hadoop не заменит хранилища данных, по крайней мере, в ближайшее время, «но он предлагает альтернативы более дорогостоящему программному обеспечению и устройствам для определенных видов аналитики».

6. Больше, лучше NoSQL

Альтернативы традиционным реляционным базам данных на основе SQL, называемые базами данных NoSQL (сокращенно «Не только SQL»), быстро завоевывают популярность в качестве инструментов для использования в определенных видах аналитических приложений, и этот импульс будет расти, говорит Курран. По его оценкам, существует от 15 до 20 баз данных с открытым исходным кодом NoSQL, каждая со своей специализацией. Например, продукт NoSQL с возможностью графической базы данных, такой как ArangoDB , предлагает более быстрый и более прямой способ анализа сети взаимоотношений между клиентами или продавцами, чем реляционная база данных. «Эти базы данных существуют уже некоторое время, но они набирают обороты из-за видов анализа, которые нужны людям», – говорит он.Один клиент PwC на развивающемся рынке разместил датчики на полках магазинов, чтобы отслеживать, какие продукты там находятся, как долго клиенты обращаются с ними и как долго покупатели стоят перед конкретными полками. «Эти датчики выделяют потоки данных, которые будут расти в геометрической прогрессии», – говорит Керран. «База данных пар ключ-значение NoSQL, такая как Redis, – это то, что нужно для этого, потому что она специализированная, высокопроизводительная и легкая».

7. Глубокое обучение

По словам Хопкинса, глубокое обучение , набор методов машинного обучения, основанных на нейронных сетях, все еще развивается, но демонстрирует большой потенциал для решения бизнес-задач. «Глубокое обучение. , , позволяет компьютерам распознавать объекты, представляющие интерес, в больших количествах неструктурированных и двоичных данных, а также выводить взаимосвязи, не требуя специальных моделей или инструкций по программированию », – говорит он.

 

В одном примере алгоритм глубокого изучения, который изучал данные из Википедии, самостоятельно узнал, что Калифорния и Техас являются штатами США. «Не нужно моделировать, чтобы понять концепцию штата и страны, и это большая проблема. разница между старым машинным обучением и новыми методами глубокого обучения », – говорит Хопкинс.

 

«Большие данные будут работать с большим количеством разнообразного и неструктурированного текста, используя передовые аналитические методы, такие как глубокое обучение, чтобы помочь способами, которые мы только сейчас начинаем понимать», – говорит Хопкинс. Например, его можно использовать для распознавания различных типов данных, таких как формы, цвета и объекты в видео, или даже присутствие кота в изображениях, как это сделала нейронная сеть, созданная Google в 2012 году . «Это понятие когнитивного взаимодействия, расширенной аналитики и того, что оно подразумевает. , , являются важной тенденцией будущего », – говорит Хопкинс.

8. Аналитика в памяти

По словам Бейера, использование баз данных в памяти для ускорения аналитической обработки становится все более популярным и очень выгодным в правильных условиях. Фактически, многие компании уже используют гибридную транзакцию / аналитическую обработку (HTAP), позволяя транзакциям и аналитической обработке находиться в одной и той же базе данных в памяти.

 

Но вокруг HTAP много ажиотажа, и компании злоупотребляют им, говорит Бейер. Для систем, в которых пользователю необходимо просматривать одни и те же данные много раз в течение дня – и в них нет существенных изменений – оперативная память – пустая трата денег.

 

И хотя вы можете выполнять аналитику быстрее с помощью HTAP, все транзакции должны находиться в одной базе данных. Проблема, говорит Бейер, состоит в том, что большинство аналитических усилий сегодня сводятся к объединению транзакций из разных систем. «Простое размещение всего этого в одной базе данных возвращает нас к опровергнутому убеждению, что если вы хотите использовать HTAP для всей своей аналитики, это требует, чтобы все ваши транзакции были в одном месте», – говорит он. «Вы все еще должны интегрировать разнообразные данные».

 

Более того, использование базы данных в памяти означает, что есть еще один продукт для управления, защиты и определения способов интеграции и масштабирования.

 

Для Intuit использование Spark избавило вас от необходимости использовать базы данных в памяти. «Если мы сможем решить 70% наших сценариев использования с помощью инфраструктуры Spark, а система в памяти сможет решить 100%, мы перейдем с 70% в нашем аналитическом облаке», – говорит Локонцоло. «Итак, мы создадим прототип, посмотрим, готов ли он, и сделаем паузу в системах в памяти прямо сейчас».

Оставаться на шаг впереди

В связи с появлением большого количества новых тенденций в области больших данных и аналитики ИТ-организациям необходимо создать условия, которые позволят аналитикам и ученым проводить эксперименты. «Вам нужен способ оценить, создать прототип и в конечном итоге интегрировать некоторые из этих технологий в бизнес», – говорит Керран.

«ИТ-менеджеры и разработчики не могут использовать недостаточную зрелость в качестве предлога для прекращения экспериментов», – говорит Бейер. Первоначально, только несколько человек – самые опытные аналитики и исследователи данных – должны экспериментировать. Затем эти продвинутые пользователи и ИТ-специалисты должны совместно определить, когда предоставлять новые ресурсы остальной части организации. И ИТ не обязательно должны обуздывать аналитиков, которые хотят двигаться вперед в полную силу. Скорее, говорит Бейер, ИТ-отделу необходимо работать с аналитиками, чтобы «поставить регулируемую скорость на эти новые мощные инструменты».

Почитать еще

| Аналитика бизнеса

Информационный шум

Чтобы тщательно, точно и четко информировать, мы должны определить предполагаемый сигнал, а затем усилить его,

| Аналитика бизнеса

Аналитическая зрелость

В течение последних двадцати лет ментальная модель зрелости аналитики соответствовала схеме, представленной ниже, начиная с

| Аналитика бизнеса

Машинное обучение

Глубокое обучение – это продвинутая форма машинного обучения. Глубокое обучение относится к способности компьютерных систем, известных

| Аналитика бизнеса

ETL или подготовки данных

Технологии извлечения, преобразования и загрузки (ETL), которыми управляют исключительно ИТ, до недавнего времени были основным

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-01-28T21:29:13+02:00