Внутри разума и методологии специалиста по данным

Когда вы слышите о науке о данных, больших данных, аналитике, искусственном интеллекте, машинном обучении или глубоком обучении, вы можете почувствовать некоторое замешательство относительно значения этих терминов. И это не помогает уменьшить путаницу, когда каждый поставщик технологий переименовывает свои продукты в AI.

 

Итак, что на самом деле означают эти термины? Каковы совпадения и различия? И самое главное, что это может сделать для вашего бизнеса? Самый простой ответ заключается в том, что эти термины относятся к некоторым из многих аналитических методов, доступных ученым. 

 

Искусственный интеллект – это просто общий термин для этой совокупности аналитических методов. Для решения практических задач решения Data Scientist обычно использует комбинации этих методов. В этом блоге мы предоставляем общий обзор наиболее важных аналитических методов, связываем их друг с другом и показываем, что успешные решения создаются не одним инструментом.

 

Чтобы узнать больше об аналитических методологиях Infor Dynamic Science Labs, посмотрите этот веб-семинар по требованию.

 

Использование аналитических методов не ново. Во время Второй мировой войны Великобритания привлекла к оперативному контролю тысячу человек: «научный метод предоставления исполнительным департаментам количественной основы для принятия решений относительно операций, находящихся под их контролем». С тех пор и, безусловно, с момента появления компьютера, набор аналитических методов растет чрезвычайно. В такой быстро меняющейся среде различные исследовательские сообщества изобретают свои собственные имена, и это частично объясняет хаос современной терминологии.

 

Специалисты в области данных начинают проект, разговаривая с бизнес-пользователями, чтобы понять поставленный вопрос. Затем они изучают данные, которые доступны для проекта, и это обычно генерирует дополнительные вопросы для обсуждения с бизнес-пользователями. После нескольких итераций это приводит к четко определенному бизнес-вопросу с опознаваемыми подтверждающими данными. Инструменты бизнес-аналитики поддерживают этот итеративный процесс: данные могут быть доступны или доступны в хранилище данных, а его инструменты аналитики , такие как диаграммы, отчеты и информационные панели, обеспечивают визуальную поддержку бизнес-обсуждений.

 

Основополагающим инструментом анализа данных является статистика , и каждый интуитивно применяет ее ежедневно.Когда вы делаете наблюдение, будь то уровень трафика, с которым вы сталкиваетесь по дороге на работу, или общая стоимость, когда вы берете свой кофе и выпечку, вы автоматически заметите, что то, что вы наблюдаете, необычно. Статистика обеспечивает математическую основу для определения того, как данные ведут себя и когда они являются исключительными. Исключительные данные могут указывать на ошибки при вводе данных или интеграции программного обеспечения, но также могут указывать на угрозы или возможности. Надежное решение для обработки данных должно обнаруживать исключительные данные и обрабатывать их соответствующим образом.

 

Есть много разных подходов, чтобы помочь людям в принятии решений. Например, когда вы просите свое навигационное программное обеспечение найти лучший маршрут до пункта назначения, вы просите его решить проблему математической оптимизации : с учетом сети дорог найдите самый быстрый (или самый короткий) путь через сеть. Это не просто поиск в базе данных: программа запускает алгоритм, который оценивает возможные маршруты и, таким образом, находит оптимальный маршрут по отношению к указанной цели (самый быстрый или самый короткий маршрут).

 

Поскольку возможная скорость на сегмент дороги является важным входным сигналом для поиска самого быстрого маршрута, информация GPS от смартфонов используется для оценки текущей скорости на сегмент. Статистическими методами выявляются необычные данные: сломанный автомобиль на обочине дороги с интенсивным движением является исключением и должен игнорироваться при расчете текущей скорости на участке дороги.

 

Как только навигационное программное обеспечение находит оптимальный маршрут, оно рассчитывает ETA, и обычно это довольно надежно, за исключением непредвиденных сбоев, таких как новая авария.

 

Но не все процессы можно спланировать так надежно. Подумайте о месте хранения в больнице, где медсестры берут материалы, необходимые для лечения пациента. Нехватка товара может поставить под угрозу здоровье пациента, но хранение огромных запасов очень дорого. Больница хочет сбалансировать этот компромисс и хочет понять, как она может снизить уровень запасов, не подвергая опасности здоровье пациента.

 

В этой среде суточная потребность в каждом предмете существенно различается, и специалисты по данным используют статистику, чтобы понять эту изменчивость. Затем они используют математическую оптимизацию, чтобы рассчитать, какой уровень запасов минимизирует затраты на запасы, но при этом гарантирует минимальный риск отсутствия на складе. Как правило, они также используют моделирование для оценки того, как товарные запасы и запасы ведут себя при различных сценариях пополнения запасов. Наконец, инструменты бизнес-аналитики визуализируют результаты для конечных пользователей.

Многие логистические и финансовые процессы были разработаны людьми и, следовательно, хорошо поняты. Для таких процессов ученый данных может определить и решить математическую модель для оптимизации поставленных целей.

 

В качестве другого примера, фабрике нужен график производства, который учитывает объем ресурсов и оптимизирует своевременную доставку заказов клиентов. Как правило, существуют миллионы теоретических вариантов (производственные графики, маршруты к месту назначения), и алгоритмы математической оптимизации оценивают эти параметры структурированным образом, чтобы найти оптимальное или почти оптимальное решение.

 

Набор инструментов ученого данных содержит много таких алгоритмов, некоторые из которых были вдохновлены природой. Например, эволюционные алгоритмы создают набор (совокупность) разумных решений, объединяют их (селекцию) для создания новых решений (потомство), а затем устраняют наихудшие решения (выживание наиболее приспособленных). После многократного повторения этого процесса популяция развивается и содержит лучшие решения.

 

Методы оптимизации и моделирования позволяют проводить анализ «что, если» , фактически меняя мир, т. Е. Изменяя входные данные и перезапуская алгоритмы: завод может фактически добавить или удалить машину и оценить влияние на итоговый производственный график; больница может оценить стоимость и риск для пациента, если хранение будет пополняться еженедельно, а не ежедневно; и дорожные власти могут фактически закрыть участок дороги и изучить влияние на транспортные потоки. Поскольку эти методы основаны на моделях, которые описывают бизнес, они могут анализировать воображаемые сценарии, для которых нет исторических данных.

 

В тех случаях, когда оптимизация и моделирование основаны на моделях, машинное обучение определяется данными.Поскольку для построения математической модели бизнес-процесса человеку не требуется, можно использовать машинное обучение, если бизнес-процесс не совсем понятен. Алгоритмы машинного обучения анализируют данные для изучения структур и моделей вашего бизнеса. Этот процесс называется тренировкой . Эти знания поддерживают будущие решения и прогнозы. Это также выявляет два основных недостатка: машинное обучение не может использоваться для поддержки новых процессов или воображаемых процессов «что если» из-за недостатка исторических данных, и оно не может поддерживать быстро меняющийся процесс, поскольку шаблоны в исторических данных не являются репрезентативными для будущего.

В качестве примера, предположим, что вы записали большой набор исторических возможностей продаж, со многими атрибутами, такими как клиент, отдел продаж, даты создания возможностей, даты встреч с клиентами, предлагаемый продукт (ы), цена и результат (выигрыш / проигрыш) ). Поскольку мы на самом деле не понимаем процесс, по которому покупатели решают покупать или нет, мы не можем сформулировать это как проблему математической оптимизации. Тем не менее, машинное обучение может найти закономерности в исторических данных о возможностях и предсказать, будет ли новая возможность выиграна или потеряна.

 

Data Scientist начинает со статистических методов для обнаружения и удаления странных исторических данных. Этот процесс очистки является критически важным, поскольку ошибочные данные разрушают шаблоны и значительно снижают удобство машинного обучения. Следующим шагом является подготовка данных с помощью разработки функций.

 

Возвращаясь к примеру возможностей продаж, Data Scientist понимает, что даты создания и закрытия вряд ли будут иметь значение для принятия будущих решений, в то время как возраст (время между датой создания и закрытием) очень важен. Эта особенность процесса проектирования важна для получения высококачественных решений. Когда поставщик показывает вам, как легко «перетащить» набор данных в инструмент машинного обучения, он обычно забывает упомянуть, что Data Scientist потратил бесчисленные часы на разработку функций для подготовки данных.

 

Существует много разных алгоритмов машинного обучения, и одним из самых простых является Дерево решений . После того, как набор данных был подготовлен, обучение такого дерева является автоматическим процессом: алгоритм определяет лучший набор правил принятия решений, чтобы в достаточной степени фиксировать шаблоны в данных, и оставаться достаточно универсальными, чтобы их можно было применять к будущим данным. Чтобы предсказать исход новой возможности продаж, алгоритм следует правилам в ранее обученном дереве решений. Он заканчивается в узле (сегменте схожих исторических возможностей), и если 80% этих исторических возможностей были выиграны, то он прогнозирует 80% вероятности выиграть новую возможность.

 

Деревья решений легко понять и визуализировать. Бизнес-пользователи могут интерпретировать дерево решений и, следовательно, понимать, почему был сделан определенный прогноз. Однако деревья решений часто слишком просты, чтобы получить точные прогнозы. Более продвинутые алгоритмы машинного обучения могут захватывать больше паттернов в данных и, следовательно, могут предоставлять более точные решения.

 

Например, некоторые методы используют ансамбли деревьев решений, творчески называемые лесами решений . Но повышенная сложность снижает прозрачность, и процесс прогнозирования становится черным ящиком. Это особенно проблематично, если принимаемые решения имеют правовые последствия или когда (правительственные) учреждения должны быть прозрачными в своих процессах принятия решений. Каждый вариант использования диктует, как сбалансировать прозрачность и точность.

 

Современное состояние (в «черном ящике») машинного обучения называется Deep Learning , техникой, которая имитирует человеческий мозг, обучая искусственную нейронную сеть для получения желаемых выходов из заданных входов. В нашем примере, в процессе обучения, мы передаем атрибуты исторических возможностей продаж входным нейронам сети и затем настраиваем искусственные нейроны, чтобы нейронная сеть производила правильный результат (выигрыш или проигрыш). Новая возможность продаж теперь может быть предоставлена ​​обученной нейронной сети для получения прогноза выигрыша или проигрыша. Эти прогнозы могут быть гораздо более точными, чем через дерево решений или лес, но процесс не прозрачен.

 

Deep Learning в настоящее время дает впечатляющие результаты, особенно для распознавания изображений и речи. Хотя Data Scientists все еще учатся оптимизировать нейронные сети для конкретных бизнес-задач, Deep Learning является новейшим инструментом в наборе инструментов, который уже заполнен многими другими аналитическими методами.

Подводя итог, можно сказать, что Data Scientists используют обширную коллекцию аналитических методов, включая бизнес-аналитику, статистику, моделирование, математическую оптимизацию и машинное обучение. Каждый метод справляется с какой-то конкретной задачей, но ни один из них не решает полностью бизнес-задач самостоятельно. Чтобы создать реальные решения для принятия решений, Data Scientist работает с бизнес-пользователями для изучения проблемы и доступных данных, а затем выбирает и внедряет комбинацию методов, которая наилучшим образом соответствует потребностям и бюджету. В Infor Dynamic Science Labs это наша повседневная жизнь.

Узнайте о других решениях

Инструменты анализа и визуализации данных

Решения аналитики данных

Напишите нам

и мы ответим в течении часа

support@asu-analitika.ru

Несколько видео о наших продуктах

085 - Внутри разума и методологии специалиста по данным
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
106 - Внутри разума и методологии специалиста по данным
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
1 11 - Внутри разума и методологии специалиста по данным
Проиграть видео
Как аналитика данных помогает менеджерам компании
2020-07-03T21:57:45+03:00Сентябрь 10th, 2020|Рубрики: Data Mining, Статьи|Метки: , , , , , , |