CHAID-анализ
CHAID-анализ.
Построение деревьев классификации
- Аналитика бизнеса
- Методы анализа данных Data Mining
- CHAID-анализ
Оглавление
CHAID Для чего это нужно?
- Определение целевых групп
- Проведение «последовательной» сегментации рынка (в отличие от кластерного анализа, дающего «параллельную» сегментацию)
Как это работает?
Метод основан на критерии хи-квадрат. Критерий хи-квадрат является универсальным способом определения зависимости двух или более переменных, работающим для всех типов шкал, так как завязан на таблице сопряжённости, которую можно построить для любых переменных.
На входе анализа – категориальная зависимая переменная (например, заинтересованность/незаинтересованность в услуге) и несколько независимых переменных (предикторов).
Вначале ищется самый сильный фактор, который наилучшим образом объясняет различия между категориями зависимой переменной (например, выделяет группы с наибольшим и наименьшим процентом заинтересованных в услуге). Автоматически перебираются все предикторы, ищутся все комбинации значений и находится наилучшее решение, т.е. то, которое максимизирует различия (при котором наибольший хи-квадрат).
Далее в каждой из полученных групп процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. То же – для следующих уровней. В каждой из подгрупп процесс происходит независимо, т.е. например, первым фактором оказался пол, а далее для женщин важен возраст, а для мужчин, скажем, семейное положение.
Что получаем в итоге?
В результате метод позволяет построить дерево классификации – набор последовательно выделенных сегментов с наибольшими различиями целевой переменной (например, группы с максимальным и минимальным процентом заинтересованных в услуге).
Это позволяет найти, сочетание каких признаков сильнее всего влияет на целевую переменную; а также определить наиболее перспективные целевые группы.
Каковы преимущества метода CHAID?
Метод работает с переменными всех типов, даже с номинальными (в отличие от других методов сегментации, в первую очередь, кластерного анализа).
Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традиционных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами, то более результативным будет использование именно традиционных методов.
Но как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.
16 лучших графиков продаж и диаграмм для развития вашего бизнеса
Миллиардер Тилман Фертитта входит в комнату. Вы не можете поверить, что этот тяжеловес, генеральный директор и …
Почитать еще
Введение в анализ временных рядов
Хотя для анализа данных используются все многочисленные передовые инструменты и методы, такие как наука о
История развития моделей данных
Итак, прыгайте на борт и наслаждайтесь путешествиями во времени наших попыток справиться с временностью в
Машинное обучение
Глубокое обучение – это продвинутая форма машинного обучения. Глубокое обучение относится к способности компьютерных систем, известных
Правила эффективного прогнозирования
Интуиция очень важна. С ее помощью было создано большое количество хороших прогнозов. Но нужно всегда
Выборка. Типы выборок
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков
Обзор самых популярных алгоритмов машинного обучения
Существует такое понятие, как «No Free Lunch» теорема. Её суть заключается в том, что нет
Обзор основных видов сегментации
Загрузить программу ВІ Демонстрации решений Аналитика бизнеса Оглавление Сегментация бренда Сегментация помогает принимать более эффективные
Алгоритмы машинного обучения
В одной из статей мы познакомились с основами машинного обученияи, хотя кратко, но очень лаконично, мы
Полное руководство по анализу текста
Напоминание – это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены. Загрузить