//Аналитические методы анализа

Аналитические методы анализа

Можно ли построить дом, используя ручные инструменты и план десятилетней давности? Конечно, можно. Однако мало кто на это согласится, учитывая доступные сегодня электроинструменты и обновленные планы. Так же и аналитики могут продолжать разрабатывать аналитические процессы, используя только собственный код и традиционные методы. 

Оглавление

Можно ли построить дом, используя ручные инструменты и план десятилетней давности? Конечно, можно. Однако мало кто на это согласится, учитывая доступные сегодня электроинструменты и обновленные планы. Так же и аналитики могут продолжать разрабатывать аналитические процессы, используя только собственный код и традиционные методы. Однако если ознакомиться с имеющимися сегодня возможностями, мало кто захочет это делать. Сегодня отличный дом можно построить с меньшими физическими усилиями; то же верно и для аналитических процессов.

 

На протяжении многих лет аналитики использовали инструменты, которые позволяли им подготавливать данные для анализа, выполнять аналитические алгоритмы, а также оценивать результаты. Увеличение функциональности этих инструментов не вызывает удивления. В дополнение к гораздо более богатым пользовательским интерфейсам инструменты теперь дают возможность автоматизировать или оптимизировать решение распространенных задач. В результате аналитики могут больше времени посвящать анализу. Объединение новых инструментов и методов с более развитыми процессами и масштабируемостью предоставит организациям возможность укротить большие данные.

 

В этой главе пойдет речь о том, как аналитики изменили подход к построению аналитических процессов, чтобы более эффективно использовать новые доступные возможности инструментов и масштабируемости. Мы расскажем о групповом моделировании, моделировании товаров и анализе текста, а также о том, как развивалось пространство аналитического инструмента и как эти усовершенствования будут продолжать изменять работу аналитиков. Мы поговорим об интерфейсах point-and-click («укажи и щелкни»), инструментах с открытым исходным кодом и инструментах визуализации данных.

Эволюция аналитических методов

Многие часто применяемые подходы к анализу и моделированию используются уже в течение многих лет. Некоторые из них, например линейная регрессия или деревья решения, эффективны и актуальны, но сильно упрощены. Раньше простота была продиктована жесткими ограничениями, обусловленными инструментами и масштабируемостью, однако сегодняшние возможности позволяют сделать гораздо больше.

 

До появления компьютеров было невозможно произвести многочисленные итерации модели или применить сложные методы. С увеличением масштаба технологий обработки данных увеличился масштаб инструментов и методов, используемых для их анализа. Сегодня можно множество раз применять разнообразные алгоритмы к большим наборам данных.

 

Нередко в результате увеличившейся масштабируемости специалистам просто приходится чаще прибегать к одним и тем же устоявшимся методам. Однако многие аналитики начинают применять новые методологии, которые позволяют лучше использовать усовершенствованные инструменты, процессы и возможности масштабируемости. Многие из этих новых методов были давно известны, но до последнего времени не применялись на практике. Это групповые методы, экспресс-моделирование и анализ текстовых данных.

Групповые методы (ensemble methods)

Групповые подходы концептуально достаточно просты. Вместо построения одной модели с помощью одной техники несколько моделей строятся с использованием нескольких техник. Как только результаты от всех моделей получены, они объединяются для определения итогового ответа. Для объединения различных результатов можно использовать что угодно, от простого среднего показателя до гораздо более сложной формулы. Важно отметить, что групповые модели позволяют выйти за рамки выбора одной лучшей модели из набора. В данном случае объединяются результаты нескольких моделей для предоставления одного итогового ответа.

 

Мощь групповых моделей заключается в том, что различные методы имеют свои преимущества и недостатки. Например, некоторые типы клиентов могут получить плохую оценку при использовании одной техники, но очень хорошую — при использовании другой. Объединение данных, полученных от нескольких моделей, улучшает алгоритм скоринга в целом, если не буквально, для каждого оцененного клиента, товара или местоположения магазина.

 

Допустим, для оценки вероятности совершения покупки клиентом конкретного товара используются линейная регрессия, логистическая регрессия, дерево решений и нейронная сеть. Оценки, полученные от каждой модели, будут объединены в одну с помощью группового подхода. Часто это сочетание дает более надежное предсказание совершения покупки.

 

Групповым моделям посвящена отличная книга Джона Элдера и Джованни Сени «Групповые методы в интеллектуальном анализе данных» (Ensemble Methods in Data Mining by John Elder and Giovanni Seni11). Групповые подходы получили распространение благодаря эволюции аналитических инструментов. Без наличия хорошего способа управления рабочим процессом и объединения результатов групповое моделирование представляет собой весьма громоздкий процесс. Представьте себе перспективу вручную запускать процесс для каждого из используемых методов. После завершения каждого процесса необходимо вручную объединить все результаты, чтобы оценить, как с задачей справился каждый из методов. Наконец, представьте, что необходимо решить, как объединить результаты в единый ответ. Сегодня аналитические инструменты могут сделать бо’льшую часть или даже всю кропотливую работу за вас.

Мудрость толпы

Каждый отдельный способ моделирования имеет сильные и слабые стороны. Комбинируя различные результаты, мы получим единый ответ, который может быть лучше результата отдельных моделей. Это похоже на то, как усредненный ответ, основанный на предсказаниях множества людей, может оказаться близким к правильному. Это явление часто называют мудростью толпы.

 

Одна из причин растущей популярности групповых моделей заключается в простоте теории, лежащей в их основе. Мудрость толпы в повседневной жизни исследована довольно широко (см. книгу Джеймса Шуровьески «Мудрость толпы»1). Рынок предсказаний Iowa Electronic Market Университета штата Айова2 в течение многих лет демонстрировал, что обоснованные предположения множества людей в среднем часто приближаются к правильному ответу. В самом деле, средний показатель может подойти к правильному ответу ближе, чем любой из ответов в отдельности.

 

Групповой метод использует концепции, которые изложены в книге «Мудрость толпы», применительно к аналитике. Множество моделей, делающих обоснованные предположения об исследуемых взаимосвязях, в среднем окажутся очень близки к правильному ответу. Может ли групповое моделирование решить все аналитические проблемы организации? Конечно, нет. Однако организациям следует добавить их в набор используемых методов.

Экспресс-модели (commodity models)

Одной из актуальных тенденций является использование так называемых экспресс-моделей. Мы определим экспресс-модель как модель, которая создается быстро и без особых попыток полностью реализовать весь ее предсказательный потенциал. Экспресс-модели могут создаваться, например, автоматически с помощью простой ступенчатой аналитической процедуры. Цель в данном случае не в построении наилучшей модели, а в быстром создании хоть какой-то модели, которая позволяет получить приемлемый результат.

 

При надлежащем использовании экспресс-модели весьма полезны в рамках организации. Раньше построение моделей требовало больших временные х и денежных затрат. Аналитики тратили недели или месяцы только на сбор данных, а затем — на применение к этим данным созданных моделей, поэтому модели создавались редко и только для решения очень важных задач. Если бы вам предстояло разослать 30-40 миллионов писем с рекламным предложением, то в создание модели стоило бы инвестировать. Однако если бы речь шла о предстоящей рассылке 30 000 предложений, касающихся недорогого товара, то инвестировать в создание модели было бы невыгодно.

 

Если аналитики используют современные среды, включая масштабируемые песочницы, а также современные процессы, в том числе аналитические наборы данных предприятия, то на построение модели уйдет намного меньше времени, чем раньше. Чем более доступны эти стандартные переменные и чем бо’льшие вычислительные мощности могут быть к ним применены, тем легче создавать модели.

 

Всегда помните, что легкость создания процесса не означает, что можно пренебречь необходимостью удостовериться в том, что этот процесс подходящий. Однако если им управляет хороший аналитик, вы добьетесь цели гораздо быстрее.

Иногда «достаточно хорошо» на самом деле означает «достаточно»!

Экспресс-модели призваны улучшить результаты там, где в противном случае вы вообще не использовали бы никаких моделей. Это более низкая планка по сравнению с той, которую всегда пытались преодолеть большинство моделей. Процесс создания экспресс-модели прекращается в момент достижения достаточно хорошего результата. Этот процесс хорошо подходит для решения задач малой важности или для ситуаций, когда требуется создать так много моделей, что их совершенствование не оправдано с прагматической точки зрения.

 

При оценке экспресс-модели основное внимание уделяется преимуществу, которое возникает благодаря ее использованию. Приложив дополнительные усилия, можно было бы многое улучшить. Однако если быстрая модель поможет в ситуации, в которой в противном случае модель бы не применялась, то она используется.

 

Приведем такую аналогию. Если у вас есть дом, то некоторые его части вы постараетесь сделать максимально удобными. Кухня, к примеру, требует особо тщательного подхода. В других случаях вам просто необходимо, чтобы работа была сделана. Возможно, что при переоборудовании гостевой ванной комнаты вы используете самые обычные материалы, поскольку в это помещение нет смыла вкладывать большие средства. Экспресс-модели помогают в подобных бизнес-ситуациях и имеют широкий спектр способов применения. Рассмотрим некоторые из них.

Способы применения экспресс-моделей

Экспресс-модели позволяют применить передовые аналитические методы к гораздо более широкому спектру задач и в более крупном масштабе в рамках организации, чем это возможно, когда аналитикам приходится вручную создавать модель за моделью.

 

Так, розничные торговцы часто создают модели «склонности к покупкам» для важных категорий товаров. Нет смысла создавать специальную модель для медленно развивающихся и реже продвигаемых категорий. Сети бакалейных магазинов следует создать модель для таких товаров, как моющие средства для ванны и газированные напитки. Создавать модель для товаров, пользующихся меньшим спросом, вроде крема для обуви или сардин, не имеет смысла.

 

Но что если возникает необходимость в продвижении менее важных товаров? Допустим, производитель сардин готов спонсировать проведение рекламной акции для своих товаров. Некоторые розничные торговцы сегодня имеют модели для всех своих многочисленных категорий товаров. Многие из них представляют собой экспресс-модели. Они создаются на случай, если понадобятся, и в этих ситуациях могут сформировать некоторую дополнительную ценность. Таким важным категориям, как газированные напитки или чистящие средства для ванной, по-прежнему уделяется особое внимание, и для них создаются отдельные более сложные модели. Тем не менее использование экспресс-моделей позволяет обеспечить менее важные категории товаров хотя бы простейшей моделью.

 

Сегодня благодаря аналитическим инструментам такие модели создаются легче. В них появились возможности автоматического выполнения алгоритмов с множеством комбинаций показателей и несколькими автоматизированными методами проверки. Это позволяет быстро создать довольно неплохую модель. Менее важные задачи потребуют другого подхода. В самом деле, нет ничего плохого в использовании достаточно хорошей модели вместо самой лучшей, когда ситуация этого требует.

 

Рассмотрим способ применения экспресс-моделей для прогнозирования. Представьте себе производителя, которому необходимо обеспечить как можно более надежные прогнозы относительно уровней спроса, например по кварталам, по товарам и по странам. Что если ему потребовалось бы спрогнозировать спрос в каждом магазине или точке продаж на каждую неделю для каждого отдельного товара? На высококачественное прогнозирование просто не хватит человеко-часов. В таких случаях имеет смысл создавать автоматизированные достаточно хорошие прогнозы. Если прогнозы верхнего уровня точны, а совокупность прогнозов низкого уровня соответствует этой точности, то производитель останется доволен. В этом случае у него будут преимущества по сравнению с отсутствием каких-либо прогнозов.

 

Самое главное — убедиться в том, что вы используете процесс, который генерирует достаточно хорошие модели. Необходимо регулярно перепроверять процесс разработки экспресс-моделей и осмысленно оценивать их результаты. Не следует пускать процесс создания экспресс-моделей на самотек и позволять ему работать вообще без какого-либо вмешательства.

Анализ текста

Один из наиболее быстро развивающихся методов, используемых сегодня организациями, — анализ текста и других неструктурированных источников данных, к которым относится значительная часть больших данных. Анализ текста, как следует из названия, в качестве входных данных подразумевает некоторый текст. Он может представлять собой запись — электронное письмо, расшифровку диктофонной записи или даже отсканированный текст, преобразованный в электронную форму, например старые протоколы судебных заседаний. Причина роста популярности анализа текста — в богатстве новых источников текстовых данных.

 

В последние годы фиксируется все, начиная от электронной почты и комментариев в таких социальных сетях, как Facebook и Twitter, и заканчивая онлайн-запросами, текстовыми сообщениями и разговорами с сотрудниками колл-центров. Извлечение смысла из всех этих текстовых данных представляет собой непростую задачу. Существуют трудности, связанные с разбором, определением контекста и выявлением значимых закономерностей. Неструктурированных и текстовых данных у организаций становится больше, чем традиционных, структурированных данных. И эти типы данных нельзя игнорировать.

 

Текст — широко распространенный тип больших данных, и инструменты и методы его анализа прошли долгий путь развития. Сегодня существуют инструменты, которые помогают разобрать текст на составляющие его слова и фразы, а затем определить значение этих слов и фраз. Популярные коммерческие инструменты анализа текста предлагают такие компании, как Attensity, Clarabridge, SAS и SPSS.

 

Разбив текст на компоненты, можно определить их настроение или значение и выявить существующие тенденции. Часто к сводным статистическим данным о разобранном тексте применяются модели. Например, сколько электронных писем конкретного клиента написаны в положительном или отрицательном тоне? Как часто данный клиент фокусируется на конкретной продуктовой линии в своих сообщениях? Это позволяет структурировать необработанную информацию. Такой способ разбора и структурирования текста часто называется извлечением информации.

 

Важно понять, что сами по себе неструктурированные данные не анализируются. Сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ этих структурированных результатов. Вспомните сериалы, в которых детективы выявляют преступника. Берется отпечаток пальца, затем на него наносятся различные точки, которые соединяются между собой. Наконец, детективы находят совпадение и выявляют преступника. В данном случае производится сопоставление не исходного неструктурированного отпечатка, а созданной на основе его узора структурированной формы. Такой подход характерен для анализа источников больших неструктурированных данных.

Анализ неструктурированных данных

Как правило, сами по себе неструктурированные данные не подвергаются анализу. Сначала они подвергаются обработке, в результате которой им придается некоторая структура. Затем производится анализ структурированных результатов. Очень немногие аналитические процессы анализируют и делают выводы непосредственно на основе данных, находящихся в неструктурированной форме.

 

Применение контекста к текстовым данным представляет собой сложную задачу. Существуют определенные методы, однако этот процесс всегда предполагает долю творчества. Дело в том, что одни и те же слова могут иметь разные значения. Если я назову вас сумасшедшим, это будет воспринято как оскорбление. Однако если я скажу, что только что спустился по сумасшедшему горнолыжному склону, я имею в виду, что горнолыжный склон произвел потрясающее впечатление. Анализировать текст еще труднее, поскольку отдельные слова сами по себе часто не рассказывают всей истории и гораздо важнее то, как эти слова произносятся. Интонация может полностью изменить значение предложения.

 

Отличный пример приведен в табл. 1. Смысл всего предложения меняется, когда ударение перемещается. Если вы видите и слышите говорящего человека, то легко можете понять, что он имеет в виду. Когда у вас есть только текст, то понять его, используя лишь высказывание, невозможно. Предложения, которые окружают конкретное высказывание, помогают уяснить то, что имел в виду говорящий, однако переход на такой уровень анализа еще больше усложняет задачу. Вот почему анализ текста в течение некоторого времени будет оставаться сложной задачей.

 

Табл. 1. Как акцент может изменить значение

Перенос акцента… …изменяет значение
Я не говорил, что книга Билла — отстойЯ не говорил, что книга Билла — отстой
Я не говорил, что книга Билла — отстой
Я не говорил, что книга Билла — отстой
Я не говорил, что книга Билла — отстой
Я не говорил, что книга Билла — отстой
Но мой друг Боб сказал!Как ты смеешь обвинять меня в этом?
Но я признаю, что написал это в электронном письме
Я сказал, что его блог — отстой!
Книга другого парня — отстой
Я просто сказал, что она не относится к числу моих любимых

Большинству организаций абсолютно необходимо начать использовать методы анализа текста. Анализ текста из метода, имеющего ограниченную область применения, превращается в технику, влияющую на широкий спектр отраслей и задач. Это один из примеров новых типов методик, которые необходимо развивать, чтобы обеспечить возможность обработки неструктурированных источников больших данных.

Отслеживание появляющихся методов

Новые методы решения новых бизнес-задач появляются постоянно. Необходимо стремиться к тому, чтобы ваша организация использовала самые последние достижения. Если к вашему бизнесу примени’ м новый метод или подход, кому-то нужно будет в нем разобраться. Рассмотрим несколько методов, которые поначалу использовались редко, а потом распространились повсеместно. Эти примеры демонстрируют, насколько быстро редко применяемый метод может стать широко используемым.

 

Совместная фильтрация имеет цели, схожие с анализом близости. Оба подхода используются для того, чтобы выявить, в чем может быть заинтересован конкретный потребитель, исходя из интересов других, «похожих» клиентов. Совместная фильтрация используется сегодня на сайтах по всему миру и представляет собой довольно быстрый и надежный способ получения достойных рекомендаций. По сути, она обычно реализуется в форме экспресс-модели. Базовый подход легко развернуть и быстро получить рекомендации довольно хорошего качества. С развитием всемирной паутины совместная фильтрация получила довольно широкое распространение и влияние. Десять-пятнадцать лет назад этот метод не был так хорошо известен.

 

Алгоритм ранжирования страниц — это метод, лежащий в основе деятельности компании Google. Google использует его для определения наиболее релевантных ссылок, которые могут быть предоставлены пользователям при обработке поискового запроса. Все остальные поисковые системы располагают собственной версией алгоритма ранжирования страниц. Сегодня большинство отдельных сайтов имеют встроенный вариант этого алгоритма, используемого при осуществлении поиска на сайте. Эти методы были разработаны совсем недавно и не использовались до наступления эпохи интернета.

 

Бо’льшая часть населения никогда не слышала о совместной фильтрации или ранжировании страниц. Поколение назад большинство людей за всю свою жизнь могли ни разу не столкнуться с этими методами, однако в последние несколько лет они получили повсеместное распространение. Миллионы людей, путешествуя по всемирной паутине, используют эти методы анализа каждый день независимо от того, осознают они это или нет. В ближайшие годы широкое распространение получат другие методы, в настоящее время практически неизвестные. Каждая организация должна позаботиться о том, чтобы у нее были люди, которые отслеживали бы появление новых методов. О них можно узнать на конференциях по аналитическим технологиям, в специализированных журналах, статьях и блогах или от специалистов из других компаний.

Эволюция аналитических инструментов

Когда я занялся аналитикой в конце 1980-х годов, не существовало понятия «дружественный пользователю». Вся аналитическая работа выполнялась с помощью мейнфреймов. Для того чтобы провести анализ, приходилось не только непосредственно создавать программный код, но и использовать ужасный язык управления заданиями (JCL). Каждый, кто когда-либо сталкивался с JCL, знает, какая это головная боль!

 

Когда распространение получили серверы и ПК, они в основном представляли собой те же старые программные интерфейсы с новыми платформами. Графика и вывод данных в те времена находились в зачаточном состоянии. Первоначально графики генерировались с помощью текстовых знаков, из которых создавались столбиковые диаграммы, а для рисования сеток использовались тире. При выводе данных вы получали огромное количество текста с описанием того, что произошло.

 

Со временем были разработаны дополнительные графические интерфейсы, которые давали возможность вместо кодирования использовать среды point-and-click («укажи и щелкни»). Практически все коммерческие аналитические инструменты имели такие интерфейсы к концу 1990-х годов. С тех пор пользовательские интерфейсы были еще более усовершенствованы и теперь содержат более мощные графические средства, диаграммы потоков работ, а также приложения, сосредоточенные на конкретных точечных решениях. Диаграммы потоков работ — одна из самых полезных новых функций, поскольку они предоставляют аналитикам наглядную карту с отдельными этапами работы и связанными между собой задачами. Это позволяет визуально отслеживать все шаги процесса.

 

По мере развития инструментов продолжает развиваться и сфера их применения. В настоящее время существуют инструменты управления развертыванием аналитических процессов, управления и администрирования аналитических серверов и программного обеспечения, используемых аналитиками, а также инструменты для перевода кода с одного языка на другой. Кроме того, имеется ряд коммерческих аналитических пакетов. Хотя лидерами рынка остаются компании SAS и SPSS, существует множество других аналитических программ. Многие из них занимают определенную нишу, охватывая конкретные области. Кроме того, в настоящее время созданы аналитические инструменты с открытым исходным кодом.

Распространение графических пользовательских интерфейсов

До середины — конца 1990-х годов единственный вариант проведения статистического анализа подразумевал написание кода. Многие люди, особенно аналитики «старой школы», все еще любят писать код. Тем временем пользовательские интерфейсы становятся нормой, и аналитикам больше не нужно тратить много времени на кодирование. Графические пользовательские интерфейсы, доступные сегодня, позволяют генерировать большое количество кода «под капотом» от имени пользователей.

 

Часто можно слышать жаркие споры о том, используют ли «настоящие» профессионалы графический интерфейс или же они только пишут код. На самом деле ни у кого не должно возникать проблем с использованием графического интерфейса, пока он работает надежно и позволяет разрабатывать аналитические процессы в темпе, который равен или превышает темп ручного кодирования. Настоящие аналитики делают все возможное, чтобы выполнить работу настолько точно и эффективно, насколько это возможно. Кроме того, программное обеспечение сегодня предусматривает надежные решения, которые не только позволяют быстро генерировать код, но и помогают пользователям пройти через предопределенный процесс, направленный на решение конкретных проблем.

 

Дополнительное преимущество пользовательского интерфейса состоит в том, что автоматически сгенерированный код достаточно оптимизирован и свободен от ошибок. В этом заключается его отличие от ручного кодирования, при котором нередки опечатки, требуется отладка, а степень оптимизации производительности кода зависит от того, кто его написал. Ранние версии аналитических пользовательских интерфейсов были довольно громоздкими, и если человек умел хорошо кодировать, то ему быстрее было написать код, чем использовать интерфейс. Все изменилось с появлением новых пользовательских интерфейсов, которые эффективно автоматизируют генерирование большого количества кода. Это позволяет больше внимания уделять собственно анализу и необходимым методологиям и тратить меньше времени на кодирование.

 

С пользовательскими интерфейсами связана одна опасность, которая в то же время является одним из их ключевых преимуществ: интерфейсы позволяют легко генерировать код. Звучит заманчиво, однако возможность быстро генерировать код также позволяет быстро генерировать и плохой код. Если пользователь не профессионал, то с помощью пользовательского интерфейса он может случайно создать код, который будет делать совершенно не то, что задумано. Без понимания сгенерированного кода пользователь не в состоянии выявить такие ситуации, а это может привести к тому, что разработанные процессы будут некорректными или неточными.

Не надо быть старомодным

Многие пользовательские интерфейсы, доступные сегодня, действительно могут ускорить процесс генерирования кода, обеспечивая при этом отсутствие ошибок и оптимизацию. Специалистам стоит дать сегодняшним интерфейсам шанс. Результаты могут их удивить! Это особенно касается тех, кто на протяжении десятилетий занимался кодированием и сопротивляется любым другим способам. Инструменты сделают работу аналитиков более эффективной, освободив время для того, чтобы сосредоточиться на методах анализа вместо написания кода.

 

К точечным решениям относятся, например, приложения для оптимизации цен, выявления фактов мошенничества и прогнозирования спроса. Точечные решения, построенные на основе таких наборов инструментов, как SAS, используют некоторые общие функции базового пакета, однако пользовательский интерфейс настроен на решение конкретных задач. На разработку точечного решения может потребоваться много времени. Организациям следует подумать о приобретении такого решения вместо создания собственного. Это может сэкономить и деньги, и время.

 

Приложение для финансового учреждения, которое поможет обнаружить факты отмывания денег, например, должно предусматривать набор алгоритмов и бизнес-правил, которые находят подозрительные закономерности в движении средств. Интерфейс такого инструмента будет настроен на выявление подозрительных случаев и предоставление по мере необходимости дополнительной информации для помощи в процессе расследования. Такой инструмент может помочь организации быстро приступить к работе без необходимости разрабатывать множество процессов с нуля.

 

Аналитические точечные решения набирают популярность, поскольку позволяют различным отделам организации использовать более сложные аналитические методы в своих повседневных бизнес-процессах. Как правило, для того чтобы осуществить установку, конфигурирование и настройку параметров этих инструментов, необходим высокий уровень знаний. Однако их обслуживание и использование по силам менее подготовленным людям, что значительно расширяет пользовательскую базу точечных решений. Обратите внимание на то, что это не отменяет сказанного о людях, не использующих инструменты, если они не разбираются в кодировании. Точечные решения построены и сконфигурированы так, что пользователь совершает наиболее уместные действия.

 

Пользователи аналитических точечных решений, как правило, оказываются более продвинутыми по сравнению с рядовыми сотрудниками. Однако они не будут обладать такими же навыками, как профессиональные аналитики. Инструменты, сконфигурированные и настроенные специалистами, позволят автоматизировать решение многих задач, так что опытный пользователь сможет эффективно контролировать результаты работы инструмента и убедиться в том, что все работает нормально. Преимущество этого подхода заключается в более широком применении аналитики в рамках организации и в увеличении масштаба. Ни у одной организации никогда не будет достаточно аналитиков для проведения всех необходимых видов анализа вручную. Аналитические точечные решения снимают часть этой нагрузки.

Используйте точечные решения

Аналитические точечные решения — отличный способ справиться с конкретными бизнес-проблемами. Такие инструменты позволяют подключить к аналитическому процессу больше людей. Использовать готовое коммерческое точечное решение намного быстрее, чем создавать собственное. Однако будьте готовы испытать потрясение, когда увидите цены на некоторые из доступных инструментов.

 

Серьезный недостаток точечных решений состоит в том, что они бывают весьма дорогостоящими. Некоторые точечные решения стоят порядка десяти миллионов долларов или больше, если речь идет об использовании инструмента в масштабах всего предприятия. Если ROI3 оправдывает такие расходы, то это приемлемо. Однако типичная организация не может потратить достаточно денег, времени и усилий на реализацию многочисленных точечных решений, поэтому они нередко используются последовательно: по мере завершения реализации одного решения начинается реализация другого.

 

В ближайшие годы будут разработаны точечные решения применительно к некоторым аспектам анализа больших данных. Возможно, именно они потребуются организациям, чтобы начать такую работу. В процессе планирования своих действий следует изучить рынок, чтобы узнать о существующих возможностях.

История открытого программного обеспечения

Программные пакеты с открытым исходным кодом существуют довольно давно. Они доступны для всех и могут быть загружены бесплатно. Кроме того, сам код также доступен, поэтому при желании пользователи могут настраивать и добавлять функции в программное обеспечение.

 

Существуют примеры широко используемых и весьма успешных приложений с открытым исходным кодом: веб-браузер Firefox, операционная система Linux и веб-сервер Apache. Развитие интернета способствовало росту активности, обусловленной открытым программным обеспечением. Если учесть все инновации, появившиеся в интернет пространстве, совершенно естественно, что им сопутствуют инновации в приложениях с открытым исходным кодом.

 

В настоящее время существуют самые разнообразные программные пакеты с открытым исходным кодом: базы данных, приложения для бизнес-аналитики и отчетности, инструменты для интеграции данных, офисные пакеты и т. д. В одних случаях, например в Linux и Apache, набор инструментов с открытым исходным кодом стал общепринятым вариантом, если не лидером, в своей области. Во многих других случаях (офисные средства) открытое программное обеспечение занимает конкретную нишу. Как правило, крупные и/или длительное время существующие корпорации медленнее принимают инструменты с открытым исходным кодом, чем новые сферы бизнеса или академическая среда.

 

Замечательная особенность инструментов с открытым исходным кодом состоит в том, что в повышение их функциональности свой вклад вносят тысячи людей. Обнаруженная ошибка достаточно быстро может быть исправлена многочисленными разработчиками-энтузиастами, которые работают в свободное время. Основные проекты с открытым исходным кодом поддерживаются формальными организациями. Есть организации, которые состоят полностью из добровольцев; на некоммерческих предприятиях, созданных для управления проектом, работают сотрудники, нанятые на полный рабочий день. За счет пожертвований эти организации могут платить сотрудникам зарплату, однако они не пытаются зарабатывать на самом программном обеспечении. Цель состоит в том, чтобы получить достаточное количество денег в виде пожертвований и, оплатив работу специалистов, гарантировать эффективное управление проектом. В будущем открытое программное обеспечение продолжит оказывать влияние, в том числе в сфере аналитики. Это подводит нас к проекту R.

Проект R для статистических расчетов

Открытое программное обеспечение пришло в мир передовой аналитики в виде «Проекта R для статистических расчетов», известного также как просто R. R — это бесплатно распространяемый аналитический пакет с открытым исходным кодом, который напрямую конкурирует с коммерческими аналитическими инструментами, а также дополняет их. R — потомок S, одного из первых языков для статистического анализа, разработанного десятки лет назад. Свое название проект R, видимо, получил благодаря тому, что представлял собой обновление S, а также тому, что с буквы R начинаются имена его создателей (Роберт Джентлмен и Росс Айхэка)4.

 

Проект R быстро завоевал популярность и в настоящее время используется многочисленными профессиональными аналитиками. Это особенно верно в академической и исследовательской среде. Что касается корпоративной среды, то при наличии большой команды аналитиков по крайней мере некоторые из них так или иначе используют язык R.

 

Коммерческие инструменты по-прежнему доминируют, однако влияние R постепенно растет. Хотя количество его пользователей быстро увеличивается, на сегодняшний день он еще не так прочно прижился на крупных предприятиях, как в научных кругах. Язык R, как правило, используется для исследований и разработок, а не в крупномасштабных, критически важных для производства аналитических процессах. Со временем это может измениться, однако на момент написания данной книги дела обстоят именно так.

 

Язык R имеет широкий спектр возможностей. Он в большей степени объектно-ориентированный, чем многие другие наборы аналитических инструментов. Может быть связан с такими распространенными платформами программирования, как C++ и Java, что позволяет внедрять R-код в приложения. На самом деле коммерческие аналитические пакеты даже позволяют выполнять код, написанный на языке R, в рамках своих наборов инструментов. Это очень полезная функция. Более подробное описание этой темы выходит за рамки данной книги.

 

Возможно, самое большое преимущество языка R состоит в том, что при появлении нового метода моделирования или анализа кто-нибудь реализует его на этом языке. Функциональность R обновляется гораздо быстрее, чем функциональность коммерческих инструментов, и, если задуматься, так и должно быть. Поставщик коммерческого инструмента не будет спешить с интеграцией нового алгоритма, пока не убедится в том, что на его использование есть спрос. Убедившись в этом, поставщик добавляет этот алгоритм в свой график выхода, создает код и включает его в новую версию инструмента. На это могут уйти годы. В случае с R код алгоритма создается сразу, как только несколько человек сочтут его полезным.

 

То, что R распространяется бесплатно, для многих является несомненным преимуществом. Однако, как и в случае с любым другим проектом с открытым исходным кодом, существуют компании, которые предлагают собственные платные расширения и/или сервисы. Эти компании могут помочь вам с применением R, с разработкой процессов на языке R, а в некоторых случаях — предоставить вам расширения, улучшающие функциональность базового пакета. Недостаток бесплатного программного обеспечения — отсутствие поддержки. Вам приходится более или менее самостоятельно искать ответы на вопросы. Несмотря на существование многочисленного сообщества, нет ни одного конкретного ответственного человека или команды, к которым вы могли бы обратиться.

Вы используете R?

R — быстро развивающийся набор аналитических инструментов с открытым исходным кодом. За последние годы он сильно эволюционировал и получил широкое распространение. R имеет свои преимущества и недостатки и не подходит для каждой организации или каждой задачи. Однако в вашей организации он может сыграть определенную роль.

 

Один из главных недостатков языка R заключается в том, что программирование с его помощью — достаточно интенсивный процесс. Несмотря на существование графических интерфейсов, созданных на основе языка R, многие пользователи сегодня по-прежнему предпочитают писать код. Кроме того, R-интерфейсы гораздо менее развиты, чем аналогичные интерфейсы для коммерческих инструментов. Разумеется, со временем это может измениться.

 

Возможно, самым большим недостатком языка R является его плохая масштабируемость. В последнее время были сделаны некоторые улучшения, однако уровень масштабируемости R не соответствует уровню других коммерческих инструментов и баз данных. Компилятор R обрабатывает данные в оперативной памяти. Это означает, что он может работать только с наборами данных, размер которых соответствует объему доступной памяти компьютера. Даже у очень дорогого компьютера объем памяти гораздо меньше, чем требуется для работы с наборами данных предприятия, не говоря уже о больших данных. Если крупная организация хочет укротить большие данные, то R может стать частью решения, но не единственной, по крайней мере на сегодняшний день.

 

Все большее число инструментов, включая коммерческие аналитические пакеты, позволяют применять язык R. Станет ли он лидером, как Apache или Linux? Останется ли нишевым продуктом, как офисные пакеты с открытым исходным кодом? Только время покажет, какую роль будет играть R в сфере углубленной аналитики.

История визуализации данных

Визуализация данных так же стара, как и сами данные. В последнее время она превратилась в отдельную отрасль. Такие люди, как Эдвард Тафти5, зарабатывают на жизнь, обсуждая, исследуя и оценивая методы визуализации. Тафти написал множество книг, в том числе ставшую классической Visual Display of Quantitative Information («Визуальное отображение количественной информации»)6.

 

Изображенное Шарлем Жозефом Минаром уничтожение войск Наполеона во время похода на Москву в 1812 году считается одной из лучших визуализаций всех времен. Посмотрев на это изображение, пройдя по ссылке в примечаниях к главе, вы сможете ясно представить себе, что произошло с этими войсками.

 

Визуализация в мире аналитики — это диаграммы, графики и таблицы, которые отображают данные. До появления компьютеров графики рисовали от руки. Компьютеры революционизировали и упростили методы создания визуализаций. Я помню свой первый цветной принтер для компьютера Radio Shack Color Computer. В нем в буквальном смысле были маленькие цветные шариковые ручки, рисующие на листе бумаги, похожем на широкую чековую ленту. Я мог создавать только некоторые очень примитивные столбиковые диаграммы с низким разрешением.

 

Раннее аналитическое программное обеспечение довольно умно использовало символы клавиатуры для создания графики, которая, возможно, и не была красивой, но очень хорошо позволяла донести смысл. Каждый столбик диаграммы мог состоять из ряда символов X (см. рис. 1); круговая диаграмма — из точек, запятых и тире, а рамку таблицы рисовали с помощью символов «» и «|».

Рис. 1. Элементарная столбиковая диаграмма

 

Когда офисные приложения получили широкое распространение, практически у любого человека появилась возможность создавать красочные диаграммы или графики с осями, подписями и легендами. Графические средства аналитических инструментов также сильно эволюционировали и вышли далеко за пределы создания графиков, состоящих из текстовых символов.

 

Однако до недавнего времени визуализации в основном были статичными. Диаграмма в настольном приложении для создания презентаций или в электронной таблице оставалась статичной, пока не производилось ее обновление — как правило, вручную. Сегодня существуют средства визуализации, позволяющие взаимодействовать с графикой, исследуя и анализируя данные новыми и более эффективными способами.

Современные средства визуализации

Инструменты визуализации эволюционировали так сильно, что многие люди не осознают всех существующих возможностей. Такие инструменты, как Tableau, JMP, Advizor и Spotfire, помогают профессиональным аналитикам и бизнес-пользователям выйти за пределы графики, которая просто иллюстрирует уже разработанную историю. Инструменты визуализации позволяют пользователю разработать новую историю, используя интерактивную визуальную парадигму.

 

Сегодняшние инструменты визуализации позволяют создать несколько вкладок с графиками и диаграммами, связанных с исходными данными. Еще более важно то, что вкладки, графики и диаграммы могут быть связаны друг с другом. Если пользователь щелкнет по столбику для северо-восточного региона, все остальные графики мгновенно скорректируются и будут отображать данные, относящиеся к этой области.

 

Эти новые инструменты можно представить как программное обеспечение для создания презентаций и электронных таблиц «на стероидах». Мало того что некоторые инструменты визуализации имеют такие же функции манипулирования данными, как и электронные таблицы, — они также обладают возможностями создания графиков, соперничающими с функциями приложений для создания презентаций или даже превосходящими их. Теперь добавьте к этому возможности подключения к большим базам данных, использования визуальных средств и углубленного изучения данных. В результате получается нечто очень мощное.

 

Основная предпосылка визуализации данных состоит в том, что очень трудно бывает разобраться в больших таблицах или наборах чисел и выявить тенденции. Гораздо легче увидеть тенденции, если используется подходящее визуальное представление. Некоторые визуализации, например графики, отображающие данные социальных сетей, передают информацию, которую было бы практически невозможно понять или описать без визуализации.

 

Только представьте себе попытку доходчиво объяснить человеку, как на карте расположены страны. Когда у вас перед глазами есть карта, вы точно знаете, как страны располагаются друг относительно друга. Очень сложно было бы придумать даже очень объемное объяснение, которое могло бы сравниться с картой по информативности и ясности.

 

Появилась новая идея аналитики с погружением (immersive intelligence), которая пока еще недоступна в коммерческих инструментах7. Она подразумевает использование возможностей трехмерной графики, онлайн-миров вроде Second Life и сложных визуальных инструментов (например, тех, что используются в области генетических исследований). Эти технологии применяются для интерактивного представления данных. Будет ли возможна навигация по данным в интерактивной трехмерной среде для получения новых ценных сведений? Время покажет.

Не говорите — лучше один раз увидеть

Человеческий мозг очень хорошо интерпретирует визуальную информацию. Эффективная визуализация может помочь легко распознать закономерность или тенденцию. Глядя на традиционные электронные таблицы или отчеты, бывает сложно увидеть то, что вы ищете, и легко упустить важные взаимосвязи. Рисунок в виде эффективной визуализации данных может сказать больше, чем тысяча слов.

 

Визуализация помогает буквально увидеть новые идеи, которые иначе было бы невозможно обнаружить. Профессиональные аналитики в настоящее время используют эти инструменты для разработки аналитических процессов и исследования данных; некоторые специалисты прибегают к средствам визуализации исключительно для создания графики и презентаций. Эти инструменты гораздо быстрее и надежнее, чем традиционные графические. Кроме того, если во время презентации кто-то задает вопрос, можно, произведя анализ, получить ответ прямо в процессе представления, и не нужно обещать создать новый график и прислать его следующим утром. Любой организации, желающей укротить большие данные, следует рассмотреть вопрос о включении средств визуализации в свои наборы инструментов.

Важность визуализации для передовой аналитики

Профессиональному аналитику постоянно приходится объяснять сложные аналитические выводы деловым людям, не имеющим технической подготовки. Методы, которые позволяют делать это более эффективно, следует использовать. Визуализация данных относится именно к этой категории.

 

Зачем вдаваться во все детали логистической регрессии, если можно этого не делать? Включение всех оценок параметров, децилей и статистики оценки модели излишне, если простой график прироста скажет бизнес-спонсору все, что ему нужно знать. Подробности пригодятся в качестве резерва, однако бизнес-спонсоров не должны заботить технические детали. Они доверяют заботу о них своим аналитикам.

 

Немногие люди предпочтут увидеть длинный список бизнес-правил вместо наглядного дерева решений. Что если казино или розничному магазину необходимо определить самые оживленные области? Можно создать множество таблиц, разложить их на столе и попытаться в уме найти закономерности. А можно сделать тепловую карту пола казино или магазина, где цвет обозначает уровень активности. Ответ на поставленный вопрос будет очевиден сразу.

Важно впечатление, а не внешние эффекты

Важно, чтобы визуализация сразу делала идею очевидной. Слишком многие люди увязают в изощренной графике только потому, что могут себе это позволить. Простота — наилучший вариант Эффектность или сложность должны быть оправданны.

 

Обратите внимание, что мы не говорим здесь о графике ради графики. Многие люди используют чрезмерную или слишком сложную графику только потому, что ее легко создать. Трехмерная столбиковая диаграмма не добавляет какой-либо аналитической ценности по сравнению с двумерной и может даже усложнить восприятие. Внимание должно быть сосредоточено на эффективной впечатляющей визуализации, которая помогает более четко проиллюстрировать идею. Красивая графика, которая не служит никакой цели, может отвлекать от основной мысли и приводить к путанице.

 

В одних случаях бывает достаточно простой таблицы. В других уместная визуализация может помочь аудитории гораздо лучше осмыслить идею. Вспомните пример с картой. Если аналитики понимают, как эффективно визуализировать данные и результаты, это поможет им стать более эффективными и успешными в своей работе. Средства визуализации только начинают оказывать влияние. В дальнейшем они будут использоваться все чаще в процессе анализа и представления его результатов.

Новые данные важнее новых инструментов и методов

Новые входные данные будут сильнее влиять на модель, чем новый инструмент или метод. Добавление новых данных в традиционный процесс обеспечит больший эффект, чем применение новых инструментов и методов к старым данным. Вот почему важно учиться работать с большими данными, а не просто обновлять методы работы с тем, что у вас есть.

 

Эта глава была посвящена достижениям в сфере инструментов и методов. Однако нужно помнить, что новые данные оказывают большее влияние на качество и эффективность аналитики, чем сами инструменты и методы. Так, например, наличие подробных веб-данных о потребителях, которых раньше не было, в большей мере будет способствовать повышению качества и эффективности модели склонности, чем достижению логистической регрессии или группового метода, используемого для построения модели. Новые инструменты помогают получить максимальную отдачу от новых источников данных, однако сами данные представляют собой более важный фактор. Вот почему для организаций очень важно использовать доступные им источники больших данных.

Самые важные уроки этой главы.

  • Групповые методы опираются на концепцию мудрости толпы. Объединение оценок, полученных при использовании нескольких подходов, может обеспечить лучший ответ, чем каждый отдельный подход сам по себе.
  • Смысл использования экспресс-моделей заключается в быстром получении достаточно хорошей модели по возможности в автоматическом режиме. В данном случае достижение максимальной эффективности не самоцель.
  • Экспресс-модели позволяют применить моделирование для решения менее важных задач, а также задач, требующих создания очень большого количества моделей.
  • В эпоху больших данных анализ текста приобрел особую важность. Способы работы с текстовыми данными быстро развиваются и получают широкое применение.
  • Трудности анализа текста заключаются в том, что слова сами по себе не рассказывают всей истории. Акцент и интонация имеют большое значение, однако в тексте отсутствуют данные о них.
  • Пользовательские интерфейсы прошли большой путь развития и в данный момент включают в себя мощные графические средства, визуальные диаграммы потоков работ и узконаправленные точечные решения.
  • Пользовательские интерфейсы должны применяться в качестве средств повышения производительности специалистов, которые разбираются в своем деле и могут убедиться, что «под капотом» инструменты делают именно то, что от них ожидается. Дружественный к пользователю интерфейс легко позволяет технически неподготовленным людям сделать что-нибудь неправильно.
  • Аналитические точечные решения предназначены для эффективного решения узкого спектра аналитических задач, таких как выявление мошенничества или ценообразование. Такие инструменты приобретают все бо’льшую популярность.
  • R — аналитический инструмент с открытым исходным кодом, который в последние годы получил широкое распространение. Преимущество R в скорости добавления новых алгоритмов, а недостаток — в невозможности на данный момент обеспечения масштабируемости до уровня предприятия.
  • Увидеть закономерность гораздо легче, чем объяснить ее или выявить с помощью множества таблиц с данными. Современные средства визуализации позволяют обеспечить соединение с базой данных, создать интерактивные, связанные между собой графики и предоставляют гораздо больше вариантов визуализации, чем традиционные графические инструменты.
  • Визуализация данных означает не использование изощренной графики, а отображение данных таким образом, который позволяет лучше понять доносимую идею.

Почитать еще

| Аналитика бизнеса

Виртуализация данных

Виртуализация данных — способ организации доступа к данным, при котором не требуется информация об их

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-02-15T19:46:38+02:00