Метод главных компонент
На входе анализа – группа переменных, измеренных по интервальным или дихотомическим шкалам. В случае если в анализ необходимо включить порядковые переменные (например, степень согласия с рядом высказываний, измеренную по 5-балльной шкале), их необходимо предварительно оцифровать (с помощью статистического метода перекодировать в интервальные).
- Аналитика бизнеса
- Методы анализа данных Data Mining
- Метод главных компонент
Оглавление
Метод главных компонент (разведочный факторный анализ)
Снижение размерности, выявление факторной структуры
Для чего это нужно?
- Выявление и анализ латентных переменных, определяющих наблюдаемые признаки.
- Построение агрегированных характеристик (“факторов”), необходимых для дальнейшего использования в задачах сегментирования, моделирования и прогнозирования данных.
Как это работает?
На входе анализа – группа переменных, измеренных по интервальным или дихотомическим шкалам. В случае если в анализ необходимо включить порядковые переменные (например, степень согласия с рядом высказываний, измеренную по 5-балльной шкале), их необходимо предварительно оцифровать (с помощью статистического метода перекодировать в интервальные).
Анализ базируется на предпосылке, что измеряемые эмпирические показатели (переменные) являются следствием некоторых других, глубинных, скрытых от непосредственного измерения характеристик – латентных переменных. Например, когда человек отмечает степень своего согласия с рядом психографических высказываний (об образе жизни), то его ответы обусловлены рядом факторов, в числе которых, к примеру, консерватизм/современность, склонность/несклонность к риску, нацеленность на семью/карьеру, рассудительность/беззаботность и т.д.
Задача анализа – выявить эти факторы. Число выделяемых анализом главных компонент совпадает с числом переменных, включённых в анализ, но для снижения размерности необходимо отобрать лишь некоторые из них, которые наилучшим образом определяют структуру данных.
В задаче отбора главных компонент помогают факторные нагрузки – числа, свидетельствующие о том, насколько лучше/хуже, чем в среднем, данный фактор определяет структуру данных. Чаще всего отбираются главные компоненты с факторными нагрузками большими 1, т.е. те, которые определяют больший процент дисперсии, чем в среднем. Однако часто число факторов выбирается вручную исследователем с учётом теоретических предпосылок и понимания предмета исследования.
Что получаем в итоге?
Набор наиболее важных факторов, определяющих ответы на вопросы, включённые в анализ.
Например, фактор «Консерватизм» в большой степени определяет степень согласия с такими высказываниями как «Я не вижу смысла в освоении новых технологий, когда есть старые, проверенные», «Я буду вкладывать деньги только в проверенные банки», «Я уверенно пользуюсь техническими новинками» (в последнем случае люди, обладающие консерватизмом, чаще будут отвечать отрицательно). Фактор «Рассудительность будет определять ответы на вопросы «Я умею экономить», «Я люблю рисковать», «Я живу сегодняшним днем, не заботясь о завтрашнем» – для рассудительных людей будет иметь место склонность к согласию с первым высказыванием и несогласию со вторым.
Каковы преимущества метода?
Метод позволяет облегчить работу с данными, уменьшив число факторов, требующих внимания, а также выявлять глубинные критерии потребительского поведения и потребительского выбора.
Что выбрать Spotfire,Tableau,Microsoft BI или Qlik Sense?
Конечно, Tableau и Spotfire предлагают унифицированное представление данных, но не настолько эффективно, как QlikSense. QlikSense …
Почитать еще
Введение в анализ временных рядов
Хотя для анализа данных используются все многочисленные передовые инструменты и методы, такие как наука о
История развития моделей данных
Итак, прыгайте на борт и наслаждайтесь путешествиями во времени наших попыток справиться с временностью в
Машинное обучение
Глубокое обучение – это продвинутая форма машинного обучения. Глубокое обучение относится к способности компьютерных систем, известных
Правила эффективного прогнозирования
Интуиция очень важна. С ее помощью было создано большое количество хороших прогнозов. Но нужно всегда
Выборка. Типы выборок
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков
Обзор самых популярных алгоритмов машинного обучения
Существует такое понятие, как «No Free Lunch» теорема. Её суть заключается в том, что нет
Обзор основных видов сегментации
Загрузить программу ВІ Демонстрации решений Аналитика бизнеса Оглавление Сегментация бренда Сегментация помогает принимать более эффективные
Алгоритмы машинного обучения
В одной из статей мы познакомились с основами машинного обученияи, хотя кратко, но очень лаконично, мы
Полное руководство по анализу текста
Напоминание – это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены. Загрузить