Количественный анализ данных

Количественный анализ данных – одна из тех вещей, которые часто вселяют страх в студентов, когда они достигают исследовательской стадии своей степени. Это совершенно понятно: количественный анализ данных – сложная тема, полная устрашающих терминов, таких как медианы, моды, корреляция и ковариация. Внезапно нам всем стало жаль, что мы не уделяли больше внимания в классе математики.

Оглавление

Количественный анализ данных – одна из тех вещей, которые часто вселяют страх в студентов, когда они достигают исследовательской стадии своей степени. Это совершенно понятно: количественный анализ данных – сложная тема, полная устрашающих терминов, таких как медианы, моды, корреляция и ковариация. Внезапно нам всем стало жаль, что мы не уделяли больше внимания в классе математики.

 

Хорошая новость заключается в том, что, хотя количественный анализ данных – гигантская тема, получить рабочее понимание основ не так сложно даже для тех из нас, кто избегает чисел и математики любой ценой. В этом посте мы собираемся разбить количественный анализ на простые небольшие фрагменты, чтобы вы могли освоиться с основными концепциями и с уверенностью приступить к исследованию.

Что такое количественный анализ данных?

Несмотря на громоздкость, количественный анализ данных просто означает анализ данных, основанных на числах (в отличие от словесных), или данных, которые можно легко «преобразовать» в числа без потери смысла. Например, такие категориальные переменные, как пол, этническая принадлежность или родной язык, можно «преобразовать» в числа без потери значения.

 

Для чего это использовалось?

 

Количественный анализ данных обычно используется для измерения различий между группами (например, популярности разных цветов одежды), взаимосвязи между переменными (например, взаимосвязи между погодой, температурой и явкой избирателей) и для проверки гипотез строго с научной точки зрения. Это контрастирует с качественным анализом данных, который можно использовать для анализа восприятия и чувств людей в отношении события или ситуации. Чтобы узнать больше о различиях между качественными и количественными исследованиями, ознакомьтесь с этой статьей.

 

Как это работает?

 

Поскольку количественный анализ данных – это анализ чисел, неудивительно, что он включает в себя статистику. Методы и методы статистического анализа – это механизм, который поддерживает количественный анализ данных, и эти методы и приемы могут варьироваться от довольно простых вычислений (например, средних и медиан) до более сложных анализов (например, корреляций и регрессий).

 

Нужно ли мне стать статистиком?

 

Существует множество различных статистических методов, и, по общему признанию, все может быть довольно сложно. Не волнуйтесь – вам не нужно быть опытным статистиком, чтобы проводить качественные исследования. Вам просто нужно твердое понимание основ, и вы сможете узнать о методах анализа, которые будут иметь отношение к вашему конкретному исследованию, по мере вашего продвижения. Мы рассмотрим эти основы здесь.

Каковы основные методы и приемы анализа?

Как мы обсуждали ранее, количественный анализ данных основан на статистическом анализе. Используются две основные «ветви» статистических методов / методов – описательная статистика и статистика выводов. В своем исследовании вы можете использовать только описательную статистику или сочетание того и другого, в зависимости от того, что вы пытаетесь выяснить (другими словами, в зависимости от вопросов, целей и задач вашего исследования).

 

Но сначала – быстрый обход:

 

Прежде чем мы рассмотрим эти две отрасли статистики, вам необходимо понять два очень важных слова: совокупность и выборка.

 

Населения является целая группа людей (или животных или компании или любой другой), что вы заинтересованы в исследовании. Например, если вы заинтересованы в исследовании владельцев Tesla в США, то все население будет состоять из владельцев Tesla в США.

 

Однако крайне маловероятно, что вы сможете опросить каждого владельца Tesla в США. Скорее всего, вы сможете получить доступ только к нескольким сотням, может быть, нескольким тысячам владельцев. Эта группа доступных людей, данные которых вы собираете, называется вашей выборкой.

 

Другими словами, совокупность – это полный шоколадный торт, а кусочек этого торта – образец.

 

Хорошо, теперь давайте вернемся к этим двум ветвям статистики – описательной и логической :

Описательная статистика

Описательная статистика играет простую, но критически важную роль в вашем исследовании – описывает набор данных (кто бы мог подумать?). Другими словами, они помогают вам понять детали вашей выборки (небольшой фрагмент совокупности). В отличие от логической статистики (к которой мы скоро вернемся), описательная статистика не ставит своей целью делать выводы обо всей совокупности – ее просто интересуют детали вашей конкретной выборки.

 

Когда вы пишете главу, посвященную анализу, описательная статистика – это первый набор статистических данных, который вы охватите, прежде чем переходить к статистическим выводам. Однако, в зависимости от целей и вопросов вашего исследования, они могут быть единственным типом статистики, которую вы используете. В любом случае они необходимы.

Техники / методы

Некоторые общие статистические методы, используемые в этой отрасли, включают:
  • Среднее – это просто математическое среднее диапазона чисел.
  • Медиана – это средняя точка диапазона чисел (если эти числа расположены от меньшего к большему).
  • Стандартное отклонение и дисперсия – они показывают, насколько разбросан диапазон чисел. Другими словами, насколько близки (или далеки) все числа к (или от) среднему.
  • Асимметрия – показывает, насколько симметричен диапазон чисел. Другими словами, имеют ли они тенденцию группироваться в гладкую форму колоколообразной кривой посередине (это называется «нормальным распределением»), или они смещаются влево или вправо.
Вот пример этой описательной статистики в действии. В этом примере мы смотрим на массу тела 10 человек. Другими словами, наша выборка состоит из 10 респондентов.
Как видите, эта описательная статистика дает нам четкое представление о наборе данных.
  • Средний / средний вес 72,4 кг.
  • Медианный очень похож, предполагая , что этот набор данных имеет относительно симметричное распределение (т.е. гладкой колоколообразной формы кривой).
  • Стандартное отклонение 10,6 указывает на довольно большой разброс чисел (от 55 до 90).
  • Перекос -0.2 говорит нам о том , что данные немного отрицательно перекос.

Почему важна описательная статистика

Хотя все это довольно простые статистические данные для расчета (вы можете рассчитать их все в Excel с помощью нескольких щелчков мыши), они невероятно важны по нескольким причинам:

  1. Они помогают получить представление данных как на макро, так и на микроуровне. Другими словами, они помогают понять как общую картину, так и более мелкие детали.
  2. Они помогают выявить потенциальные ошибки в данных – например, если среднее значение намного выше, чем вы интуитивно ожидаете, или если ответы на вопрос сильно различаются.
  3. Они помогают определить, какие статистические методы вывода вы можете использовать, поскольку эти методы зависят от асимметрии (симметрии и нормальности) данных.

Проще говоря, описательная статистика действительно важна, даже несмотря на то, что используемые статистические методы довольно просты. Слишком часто мы видим, как студенты бегают по описаниям в своем стремлении добраться до, казалось бы, более захватывающих выводов, а затем приходят к очень ошибочным результатам. Не будьте лохом – уделите своей описательной статистике любовь и внимание, которых они заслуживают.

Cтатистика

Как мы обсуждали ранее, в то время как описательная статистика касается деталей вашего конкретного набора данных (вашей выборки), выводная статистика направлена на то, чтобы сделать выводы о совокупности. Другими словами, выводимая статистика направлена на предсказание того, что вы найдете среди всего населения. Это может включать прогнозы о:

  • Различия между группами – например, разница в росте детей, сгруппированных по их любимому блюду.
  • Связь между переменными – например, связь между массой тела и количеством часов в неделю, которые человек занимается йогой.

Другими словами, логическая статистика (если все сделано правильно) позволяет вам соединить точки и предсказать, что произойдет в реальном мире, на основе того, что вы наблюдаете в своих выборочных данных. По этой причине логическая статистика используется для проверки гипотез, другими словами, для проверки утверждений об изменении или различии.

 

Конечно, когда вы работаете со статистическими выводами, состав вашей выборки действительно важен. Другими словами, если ваша выборка не точно представляет исследуемую вами популяцию, тогда ваши выводы не обязательно будут очень полезными – то есть вы не сможете сделать много выводов.

 

Например, если интересующая вас популяция состоит на 50% из мужчин и на 50% из женщин, но ваша выборка на 80% состоит из мужчин, вы не можете делать выводы о популяции на основе вашей выборки, поскольку она не репрезентативна. Эта область статистики называется сэмплингом, но мы не будем здесь углубляться в кроличью нору (она глубокая!) – мы сохраним это для другого поста.

Методы / техники

Некоторые общие статистические методы вывода включают:
  • T-тесты – сравнивают средние значения двух групп данных, чтобы оценить, существенно ли они различаются. Другими словами, имеют ли они существенно разные средние (средние), стандартные отклонения и асимметрию.
  • ANOVA – это похоже на Т-тест, но позволяет анализировать несколько групп, а не только две группы.
  • Корреляции – оценивает взаимосвязь между двумя переменными. Другими словами, если одна переменная увеличивается, другая переменная также увеличивается, уменьшается или остается неизменной.
  • Регрессии – это похоже на корреляцию, но это шаг вперед, чтобы понять причину и следствие между переменными, а не только то, движутся ли они вместе. Другими словами, действительно ли одна переменная заставляет другую двигаться, или они просто движутся вместе естественным образом благодаря другой силе.
Давайте посмотрим на пример корреляции в действии. Вот диаграмма рассеяния, демонстрирующая корреляцию (взаимосвязь) между весом и ростом. Интуитивно мы ожидаем, что между этими двумя переменными существует некоторая взаимосвязь, что мы и видим ниже, т.е. результаты имеют тенденцию группироваться вместе по диагональной линии снизу слева вверх справа.

Это всего лишь несколько распространенных методов количественных методов – их гораздо больше. Правильный метод зависит от многих факторов, в том числе от распределения данных (т. Е. От того, насколько они симметричны или искажены). И именно поэтому так важна описательная статистика – это первый шаг к пониманию того, какие методы вывода можно и нельзя использовать.

 

Если сейчас все это звучит для вас как тарабарщина, не волнуйтесь. Вам просто нужно знать, что существует множество вариантов, и каждый вариант имеет свой собственный набор предположений, требований к данным и ограничений. Совершенно естественно (и чрезвычайно часто) учиться на ходу, выясняя вещи по мере необходимости.

Как правильно выбрать анализ

Когда вы начинаете думать о количественном анализе данных, возникает соблазн сразу перейти к методам и методам статистического анализа – например, корреляционному анализу, регрессионному анализу и т. Д. Но прежде чем вы сможете принять какое-либо решение о том, какие статистические тесты и анализы использовать, вы нужно подумать о двух очень важных факторах :
  1. Тип количественных данных, которые имеют (уровень и форма)
  2. Ваши исследовательские вопросы и гипотезы
Давайте подробнее рассмотрим каждый из них:

Тип имеющихся у вас данных

К сожалению, не все количественные данные создаются одинаково. Четыре разных типа количественных данных отражают разные уровни измерения – номинальный, порядковый, интервальный и коэффициентный. Если вы не знакомы с этой терминологией, ознакомьтесь с этим постом, в котором мы объясняем уровни измерения, прежде чем продолжить.

 

Почему это важно? Ну, потому что разные статистические методы и техники требуют разных типов данных. Например, некоторые методы работают с категориальными данными (такими как номинальные или порядковые данные), в то время как другие работают с числовыми данными (такими как интервал или соотношение), а некоторые работают со смешанными данными.

 

Другим важным фактором является форма данных – иными словами, имеют ли они нормальное распределение (т. Е. Гладкая колоколообразная кривая с центром посередине) или они сильно смещены влево или вправо. Опять же, разные статистические методы работают с разными формами данных – одни предназначены для симметричных данных, а другие – для искаженных данных. Еще одно напоминание о важности описательной статистики!

Ваши исследовательские вопросы и гипотезы

Характер ваших исследовательских вопросов и исследовательских гипотез будет сильно влиять на то, какие статистические методы и методы вы используете.

Если вы просто заинтересованы в понимании атрибутов вашей выборки (в отличие от всего населения), то описательная статистика, вероятно, все, что вам нужно.

 

Например, если вы просто хотите оценить средние (средние) и медианы (центральные точки) переменных в группе людей.

С другой стороны, если ваши исследования вопросов я п реликтового все население, глядя, чтобы понять различие между группами или отношениями между переменным, то вам, вероятно, потребуется как описательная статистика и выведенная статистика.

 

Поэтому очень важно четко определить цели и задачи вашего исследования и, что более важно, вопросы и гипотезы исследования, прежде чем вы начнете выбирать, какие статистические методы использовать. Не пытайтесь внедрить в свое исследование какой-то конкретный статистический метод только потому, что он вам нравится или у вас есть некоторый опыт работы с ним.

Пора подвести итоги…

Ты все еще со мной? Это поразительно. Мы рассмотрели здесь много вопросов, поэтому давайте подведем итоги по ключевым моментам:

  1. Количественный анализ данных – это  анализ  числовых данных (которые включают категориальные и числовые данные) с использованием различных статистических методов.
  2. Двумя основными  отраслями  статистики являются  описательная статистика  и  статистика выводов. Описания описывают вашу выборку, тогда как выводы делают предположения о том, что вы найдете в популяции.
  3. Общие  описательные статистические методы  включают  среднее  (среднее),  медианное, стандартное  отклонение  (и / или дисперсию) и  асимметрию.
  4. Общие  статистические методы вывода  включают  t-тестыANOVAкорреляционный  и  регрессионный  анализ.
  5. Чтобы выбрать правильные статистические методы и методы, вам необходимо учитывать  тип данных, с которыми вы работаете  (номинальные, порядковые, интервальные или соотношения), а также вопросы  и гипотезы вашего  исследования .

Почитать еще

| Аналитика бизнеса
Инструменты интеграции данных

Инструменты интеграции данных предназначены для широкого спектра сценариев использования, которые зависят от основных возможностей доставки

| Аналитика бизнеса
TIBCO Spotfire 11.0

Spotfire 11.0 представляет Spotfire Mods — легкий облачный фреймворк для создания новых интерактивных типов визуализаций, позволяющий создавать

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-03-09T11:11:55+02:00