Что такое наука о данных?

Наука о данных – это междисциплинарный подход к поиску, извлечению и анализу шаблонов в данных путем объединения аналитических методов, экспертных знаний и технологий. Этот подход обычно включает в себя области интеллектуального анализа данных, прогнозирования, машинного обучения, прогнозной аналитики, статистики и анализа текста.

Оглавление

Наука о данных – это междисциплинарный подход к поиску, извлечению и анализу шаблонов в данных путем объединения аналитических методов, экспертных знаний и технологий. Этот подход обычно включает в себя области интеллектуального анализа данных, прогнозирования, машинного обучения, прогнозной аналитики, статистики и анализа текста. Поскольку данные растут с тревожной скоростью, компании стремятся использовать свои данные. Тем не менее, большинство организаций сталкиваются с нехваткой экспертов для анализа своих больших данных, чтобы найти идеи и изучить проблемы, о которых компания даже не подозревала. Чтобы осознать и монетизировать ценность науки о данных, организации должны внедрять стратегии прогнозирования, прогнозирования и оптимизации в бизнес и операционные системы. Многие предприятия в настоящее время предоставляют своим работникам умственного труда платформы, которые могут помочь им в реализации собственных проектов и задач машинного обучения. Способность извлекать тенденции и возможности в огромных объемах данных, внедряемых в бизнес, даст организации конкурентное преимущество.

 

Наука о данных включает в себя описательные, диагностические, прогнозирующие и предписывающие возможности. Это означает, что с наукой о данных организации могут использовать данные, чтобы выяснить, что произошло, почему это произошло, что произойдет, и что они должны сделать с ожидаемым результатом.

Понимание того, как работает Data Science

Концептуально процесс обработки данных очень прост для понимания и включает следующие этапы:

  1. Понять бизнес-проблему
  2. Сбор и интеграция необработанных данных
  3. Исследуйте, преобразовывайте, очищайте и подготавливайте данные
  4. Создание и выбор моделей на основе данных
  5. Протестируйте, настройте и разверните модели
  6. Мониторинг, тестирование, обновление и управление моделями

Понять бизнес-проблему

Наука о данных начинается с понимания проблемы, которую пытается решить бизнес-пользователь. Например, бизнес-пользователь может захотеть спросить и понять «Как мне увеличить продажи?» Или «Какие методы лучше всего подходят для продажи моим покупателям?». Это очень широкие, неоднозначные вопросы, которые не приводят к гипотезе, которая сразу же исследуется. , Задача исследователя данных состоит в том, чтобы разбить эти бизнес-проблемы на поддающиеся исследованию и проверке гипотезы. Например, «Как мне увеличить продажи?» Можно разбить на несколько небольших вопросов, таких как «Какие условия приводят к увеличению продаж? Было ли это продвижение по службе, погода или сезонность? »,« Как мы можем оптимизировать наши продажи на основе ограничений? »И« Каковы продажи, вероятно, будут завтра / на следующей неделе / ​​в следующем месяце для каждого магазина? » помните, что нужно понимать бизнес-решение, которое необходимо принять, и работать в обратном направлении. Как изменится ваш бизнес-процесс, если вы сможете прогнозировать что-то на час / день / неделю / месяц в будущем?

Сбор и интеграция необработанных данных

Как только проблема бизнеса будет понята, следующим шагом будет сбор и интеграция необработанных данных. Во-первых, аналитик должен посмотреть, какие данные доступны. Зачастую данные будут иметь разные форматы и множество разных систем, поэтому методы преобразования данных и подготовки данных часто используются для преобразования необработанных данных в пригодный для использования формат, подходящий для конкретных аналитических методов, которые будут использоваться. Если данные недоступны, ученые, инженеры и ИТ-специалисты обычно сотрудничают, чтобы доставить новые данные в среду песочницы для тестирования.

Изучите и подготовьте данные

Теперь данные могут быть изучены. Большинство специалистов по науке о данных будут использовать инструмент визуализации данных, который организует данные в графики и визуализации, чтобы помочь им увидеть общие закономерности в данных, корреляции высокого уровня и любые потенциальные выбросы. Это также время, когда аналитик начинает понимать, какие факторы могут помочь решить проблему. Теперь, когда аналитик имеет общее представление о том, как ведут себя данные и потенциальные факторы, которые могут быть важны для рассмотрения, аналитик преобразуется, создает новые функции (или переменные) и подготавливает данные для моделирования.

Тестировать, настраивать и развертывать модели

Это тот момент, когда большинство аналитиков используют алгоритмы для создания моделей из исходных данных, используя такие методы, как машинное обучение, глубокое обучение, прогнозирование или обработка естественного языка (так называемый анализ текста), для тестирования различных моделей. Статистические модели и алгоритмы применяются к набору данных, чтобы попытаться обобщить поведение целевой переменной (например, то, что вы пытаетесь предсказать) на основе входных предикторов (например, факторов, которые влияют на цель).

 

Выходными данными обычно являются прогнозы, прогнозы, аномалии и оптимизации, которые могут отображаться в сводных панелях или встроенных отчетах или внедряться непосредственно в бизнес-системы для принятия решений, близких к точке воздействия. Затем, после развертывания моделей в системах визуализации или бизнес-системах, они используются для оценки новых входных данных, которые никогда не были видны ранее.

Мониторинг, тестирование, обновление и управление моделями

После развертывания моделей их необходимо отслеживать, чтобы их можно было обновлять и переобучать по мере изменения данных из-за изменения поведения событий в реальном мире. Таким образом, крайне важно, чтобы в организациях была разработана модель операционной стратегии для управления и управления изменениями в производственных моделях.

 

В дополнение к развертыванию моделей на инструментальных панелях и производственных системах ученые могут также создавать сложные конвейеры для обработки данных, которые могут быть вызваны с помощью инструмента визуализации или инструментальной панели. Зачастую они имеют сокращенный и упрощенный набор параметров и факторов, которые могут настраиваться специалистом по гражданским данным. Это помогает решить проблему нехватки навыков, упомянутых выше. Таким образом, гражданский специалист по данным, часто специалист по бизнесу или предметной области, может выбрать интересующие параметры и выполнить очень сложный рабочий процесс по обработке данных, не разбираясь в его сложности. Это позволяет им тестировать различные сценарии без привлечения специалиста по данным.

 

Таким образом, исследователи данных рассказывают историю, используя данные, а затем предоставляют прогнозные данные, которые бизнес может использовать для реальных приложений. Используемый процесс, как показано на рисунке ниже:

  • Входные данные
  • Подготовить данные
  • Применить машинное обучение
  • Развертывание, оценка и управление моделями
  • Выходные данные

Ключевые этапы процесса обработки данных

Понимание бизнеса

  • Понять деловое решение, которое будет принято
  • Определите, какие данные необходимы для принятия решения
  • Поймите, как ваш бизнес изменится в результате решения
  • Определите архитектуру, необходимую для поддержки решения
  • Собрать многофункциональную команду технического и проектного управления

Пользовательский интерфейс Spotfire

  • Сбор данных и интеграция
  • Исследование, подготовка и очистка данных
  • Предварительная обработка данных, преобразование и генерация функций
  • Разработка и подбор модели
  • Модельное тестирование и настройка
  • Развертывание модели

Понять модель операций и управления процессом

  • Репозиторий моделей, документация и контроль версий
  • Оценка моделей, структура API и контейнерная стратегия
  • Модель исполнения среды
  • Развертывание модели, интеграция и результаты
  • Мониторинг, тестирование и обновление модели

Какие навыки необходимы для науки о данных?

Деловые навыки: сотрудничество, работа в команде, коммуникация, экспертиза предметной области / знание бизнеса

 

Навыки аналитики: подготовка данных, машинное обучение, статистика, геопространственная аналитика, визуализация данных

 

Компьютерные науки / ИТ-навыки: конвейеры данных, развертывание моделей, мониторинг, управление, программирование / кодирование

Кто использует науку о данных?

«Скрытый талант», также известный как Citizen Data Scientists: ежедневно используйте данные и аналитику для решения конкретных бизнес-задач с помощью интерфейса «укажи и щелкни».

 

«Бизнес-ориентированный»: сосредоточиться на инициативах бизнес-единиц и улучшении бизнес-операций.

 

«Специалисты»: работают над всеми функциями и бизнес-единицами для решения проблем и сотрудничают с ИТ-отделом для внедрения моделей машинного обучения. Добиться вступительного взноса и финансирования от руководителей.

 

«Горячие выстрелы»: использование множества источников данных для решения новых задач, создания прототипов решений с использованием машинного обучения и масштабирования рабочих процессов науки о данных. Любимые инструменты, такие как R, Python, Scala, Hadoop и Spark.

 

«Неиспользованный потенциал»: хотите вмешаться, но не чувствуете, что у них есть поддержка или обучение, или не работаете на организацию с технологией, предлагающей многоразовые шаблоны.

Основные задачи науки о данных

  • Понимание проблем и анализ
  • Сбор данных, подготовка / очистка данных и анализ основных данных
  • Разработка и тестирование модели
  • Развертывание модели, мониторинг и управление
  • Передача результатов лицам, принимающим решения

Какие проблемы решает наука о данных?

Ниже приведены некоторые примеры проблем, с которыми сталкивается наука о данных в различных отраслях:

Энергетика

Наука о данных в основном используется в энергетическом секторе для оптимизации геологоразведочных работ, добычи и эксплуатации, в то же время прогнозируя такие потребности, как

  • Предсказать отказ оборудования
  • Прогноз будущих объемов и цен на нефть
  • Оптимизировать распространение
  • Уменьшить выбросы
  • Проанализируйте состав грунта
  • Охарактеризовать водоемы

Финансы и Страхование

В сфере финансов и страхования наука о данных в основном сосредоточена на снижении рисков, выявлении мошенничества и оптимизации обслуживания клиентов. Вот некоторые примеры использования науки о данных:

  • Прогнозировать кредитный риск
  • Обнаружить мошенничество
  • Анализировать клиентов
  • Управление портфельным риском
  • Определите вероятность оттока
  • Соблюдать правила, такие как SOX, Basel II

Здравоохранение

Наука о данных в здравоохранении в основном используется для улучшения качества медицинской помощи, улучшения операций и снижения затрат.

  • Прогнозировать риск заболевания
  • Обнаружить мошеннические претензии
  • Выписать индивидуальные дозы лекарств
  • Анализ изображений для выявления раковых заболеваний
  • Управление претензиями
  • Улучшить безопасность пациентов
  • Определите, кто подвергается наибольшему риску

Фармацевтическая промышленность

Наука о данных в фармацевтическом секторе в основном используется для обеспечения безопасности, качества продукции и эффективности лекарств, таких как:

  • Определить золотую партию
  • Анализ клинических испытаний
  • Трассировка продуктов
  • Анализ стабильности и срока годности
  • Проверка отчетности и аналитики на соответствие нормативным требованиям
  • Анализировать производственные процессы, данные

Производство

В производстве наука о данных помогает оптимизировать процессы, улучшать качество и контролировать поставщиков. Вот некоторые примеры:

  • Улучшить урожайность
  • Сокращение брака, переделки и отзыва
  • Обнаружение мошенничества с гарантией
  • Соблюдать правила
  • Предсказывать и предотвращать сбои оборудования

Проблемы, стоящие перед учеными в области данных

Недоступные данные

Адресовано:

  • Простое объединение данных из нескольких разрозненных источников в виртуальный слой данных
  • Визуальное управление, очистка и преобразование данных для подготовки к анализу.
  • Использование самоанализа и обнаружения отношений для понимания и проверки отношений данных для построения модели

Грязные данные

Адресовано:

  • ИИ питал визуальный спор, чтобы автоматически предлагать преобразования, удалять выбросы и очищать данные
  • Автоматическая проверка работоспособности данных для заполнения пропущенных значений, удаления неважных переменных и подготовки данных для аналитики
  • Форматирование и подготовка данных из разных источников в масштабе

Ограниченный талант и опыт

Адресовано:

  • Использование автоматизированных рекомендаций и визуальных представлений для понимания сложности
  • Использование творчества всей команды, а не только нескольких исследователей данных, и сотрудничество в рамках сквозного аналитического жизненного цикла
  • Создание параметризованных шаблонов многократного использования, которые могут запускать гражданские специалисты по данным для масштабирования машинного обучения.

Результаты не используются

Адресовано:

  • Упрощение развертывания в операционных системах для встраивания машинного обучения в бизнес-процессы в точке воздействия
  • Операционализация науки данных с помощью модели мониторинга, переподготовки и управления
  • Обеспечение успешной передачи обслуживания в течение всего жизненного цикла аналитики: конвейер данных, построение моделей, оценка и разработка приложений.

Решение задач науки о данных

Наука о данных для всех: демократизация и совместная работа над наукой о данных с помощью автоматизации, многократно используемых шаблонов и общей среды сотрудничества для межфункциональных групп

 

Ускорение инноваций: быстрое создание новых гибких решений с нативными алгоритмами, открытым исходным кодом и партнерскими экосистемами при обеспечении управления

 

AnalyticOps: монетизировать ценность науки о данных, систематически концентрируясь на ее работе посредством мониторинга, управления, обновления и управления конвейером.

Обучение. Предоставлять образование и обучение гражданским специалистам по данным и другим лицам, которые хотят изучать методы работы с данными.

 

Центр передового опыта: создание СЕ для продвижения лучших практик и стимулирования инноваций и многократного использования, чтобы наука о данных могла быть распространена по всему предприятию

Почитать еще

| Аналитика бизнеса

Машинное обучение

Глубокое обучение – это продвинутая форма машинного обучения. Глубокое обучение относится к способности компьютерных систем, известных

| Аналитика бизнеса

Выборка. Типы выборок

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков

| Аналитика бизнеса

Обзор основных видов сегментации

Загрузить программу ВІ Демонстрации решений Аналитика бизнеса Оглавление Сегментация бренда Сегментация помогает принимать более эффективные

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-02-11T11:08:04+02:00