/, Статьи/Логарифмическая шкала

Логарифмическая шкала

Мы обычно думаем о количественных масштабах как о линейных, с равными количествами от одного помеченного значения до следующего. Например, количественная шкала от 0 до 1000 может быть разделена на равные интервалы по 100 каждый. Линейные масштабы кажутся нам естественными.

Оглавление

Логарифмы и их шкалы

Мы обычно думаем о количественных масштабах как о линейных, с равными количествами от одного помеченного значения до следующего. Например, количественная шкала от 0 до 1000 может быть разделена на равные интервалы по 100 каждый. Линейные масштабы кажутся нам естественными. Если бы мы проехали на машине 1000 миль, мы могли бы представить, что это расстояние разделено на десять сегментов по 100 миль. Маловероятно, что мы представили бы, что он разделен на четыре логарифмических сегмента, состоящих из 1, 9, 90 и 900-мильных интервалов. Точно так же мы думаем о проходе времени – также количественном – с точки зрения дней, недель, месяцев, лет, десятилетий, столетий или тысячелетий; интервалы, которые равны (или в случае месяцев, приблизительно равны) по продолжительности.

 

Логарифмы и их шкалы весьма полезны в математике, а иногда и в анализе данных, но они полезны только для представления данных в тех относительно редких случаях при обращении к аудитории, которая состоит из тех, кто был обучен мыслить логарифмами. С обучением мы можем научиться мыслить логарифмами, хотя я сомневаюсь, что это когда-нибудь будет так же легко и естественно, как мышление в линейных единицах.

 

В своих собственных аналитических целях я использую логарифмические шкалы, главным образом, для одной задачи: сравнивать скорости изменения. Когда два временных ряда отображаются на линейном графике, использование логарифмической шкалы позволяет нам легко сравнивать скорости изменения вдоль двух линий, сравнивая их наклоны, поскольку равные наклоны представляют равные скорости изменения. Это работает, потому что единицы измерения по логарифмической шкале увеличиваются на величину (например, в десять раз по сравнению с предыдущим значением для шкалы 10 на основе бревна или в два раза больше предыдущего значения для шкалы на основе 2 базы), а не на величину. Однако даже в этом случае я бы не стал сообщать другим о том, что я обнаружил о скоростях изменений, используя график с логарифмической шкалой, поскольку все, кроме нескольких человек, неправильно это поняли бы.

 

Я решил написать эту часть блога, когда наткнулся на следующий график в новой книге Стивена Пинкера « Просветление сейчас» :

Самая темная линия, которая представляет распределение дохода на душу населения в мире в 2015 году, отмечена звездочкой на этом графике. Он имеет вид нормального колоколообразного распределения. Эта форма предполагает справедливое распределение доходов, но более внимательно. В частности, обратите внимание на шкалу доходов вдоль оси X. Хотя метки вдоль шкалы не всегда представляют логарифмические приращения – странные, но никогда не объясняемые – шкала действительно логарифмическая. Если бы использовалась линейная шкала, распределение дохода было бы значительно искажено с пиком ближе к нижнему концу и длинным хвостом, простирающимся вправо. Я не могу придумать никакой веской причины для использования логарифмической шкалы в этом случае. Линейная шкала в диапазоне от 0 долл. США в день на нижнем уровне до 250 долл. США в день или около того на верхнем уровне будет работать нормально. Обычно интервалы в 25 долларов будут работать хорошо для диапазона 250 долларов, разбивая шкалу на десять интервалов, но это не позволит определить порог крайней бедности, составляющий чуть менее 2,00 долларов, поскольку он будет скрыт в начальном интервале от 0 до 25 долларов. , Чтобы удовлетворить эту конкретную потребность, можно использовать крошечные интервалы по 2 долл. США каждый по всей шкале, что создает крайнюю нищету примерно в пределах первого интервала. В качестве альтернативы можно использовать более крупные интервалы, и процент людей, находящихся ниже порога крайней бедности, можно обозначить цифрой.

 

После тщательного изучения графика Пинкера у вас может возникнуть соблазн утверждать, что его логарифмическая шкала дает преимущество, заключающееся в более четкой картине распределения дохода в крошечном диапазоне от 0 до 2,00 долларов. Это, однако, не является его целью. Даже если этот уровень детализации относился к делу, информация, которая появляется в этом диапазоне, не является реальной. Исходные данные, на которых основан этот график, не достаточно точны, чтобы представить, как доход распределяется между $ 0 и $ 2,00. Если бы существовали надежные данные, и нам действительно нужно было четко показать, как распределяется доход от 0 до 2 долларов, мы бы создали отдельный график, чтобы показать только этот диапазон, и этот график будет использовать линейную шкалу.

 

Почему Пинкер не использовал линейную шкалу? Возможно, это связано с тем, что сообщение графика показало бы темную сторону, которая несколько подорвала бы послание его книги о том, что мир становится лучше. Хотя доходы в целом увеличились, распределение доходов стало менее справедливым, и эта модель сохраняется и сегодня.

 

Когда я заметил, что Пинкер получил график из Gapminder и приписал его Оле Рослингу, я решил посмотреть, ввел ли Пинкер логарифмическую шкалу или унаследовал ее в этой форме от Gapminder. Проверив, я обнаружил, что графики распределения богатства Gapminder’а действительно имеют логарифмическую шкалу. Если вы перейдете на ту часть веб-сайта Gapminder, которая позволяет вам использовать их инструменты визуализации данных, вы обнаружите, что вы можете только логарифмически просматривать распределение богатства. Хотя некоторые из графиков Gapminder предоставляют возможность переключения между линейным и логарифмическим масштабами, те, которые отображают распределение богатства, этого не делают. Вот график, связанный с состоянием по умолчанию, который можно просмотреть с помощью инструмента Gapminder:

gapminder income graph 768x399 1 700x399 - Логарифмическая шкала

Это обеспечивает удобное чувство справедливости в форме колокола, что не соответствует действительности.

 

Чтобы представлять данные четко и правдиво, мы должны понимать, что работает для человеческого мозга, и соответственно проектировать наши дисплеи. Люди не думают логарифмами. По этой причине обычно лучше избегать логарифмических масштабов, особенно при представлении данных широкой публике. Конечно, Пинкер и Рослинг знают это.

 

Позвольте мне отступить от логарифмов, чтобы выявить еще одну проблему с этими графиками. Не существует практического объяснения для гладких кривых, которые они показывают, если они основаны на фактических данных о доходах. Единственный раз, когда мы видим такие плавные кривые распределения, это когда они являются результатом математических вычислений, а не когда они основаны на реальных данных. Глядя на график выше, вы можете предположить, что когда данные о распределении по каждой стране были агрегированы для представления мира в целом, агрегация каким-то образом сглаживала данные. Возможно, это возможно, но это не то, что здесь произошло. Если вы внимательно посмотрите на график выше, в дополнение к кривым в верхней части каждого из четырех цветных участков, по одному для каждого региона мира, в каждом цветном разделе есть много светлых линий. Каждая из этих светлых линий представляет данные распределения конкретной страны. Имея это в виду, посмотрите на любую из этих светлых линий. Каждая отдельная строка гладкая за пределами практической возможности быть основанной на фактических данных о доходах. Некоторая неровность вдоль линий всегда будет существовать. Это говорит нам о том, что эти графики не отображают неизменных данных о доходах ни для одной из стран. То, что мы видим, каким-то образом манипулируется. Наличие таких манипуляций всегда вызывает у меня настороженность. Данные могут сильно отличаться от фактического распределения богатства в большинстве стран.

 

Моя настороженность усиливается, когда я изучаю данные о богатстве этого типа из давних времен. Вот график распределения доходов Gapminder за 1800 год:

К чести Gapminder, они предоставляют ссылку над графиком, помеченным «Сомнения в данных», что приводит к следующему отказу от ответственности:

Данные о доходах имеют большую неопределенность!

Есть много разных способов оценить и сравнить доход. Различные методы используются в разных странах и годах. К сожалению, не существует источника данных, который позволял бы проводить сравнения по всем странам, даже за один год. Gapminder удалось скорректировать картину для некоторых различий в данных, но по-прежнему есть большие проблемы при сравнении отдельных стран. Точную форму страны следует принимать с большим количеством соли.

Я хотел бы добавить к этому отказу от ответственности, что «точная форма мира в целом должна приниматься с еще большим зерном соли». Эти данные не являются надежными. Если сегодня данные ненадежны, данные за 1800 год совершенно ненадежны. Как человек науки, Пинкер должен был сделать этот отказ в своей книге. Утверждение о том, что 85,9% населения мира жили в условиях крайней нищеты в 1800 году по сравнению с 11,4% сегодня, является хорошей историей человеческого прогресса, но это не надежное утверждение. Кроме того, трудно совместить мое чтение истории с представлением о том, что в 1800 году все, кроме 14% людей, едва выживали от одного дня до следующего. Люди, конечно, жили не так давно, но я сомневаюсь, что средний человек жил намного ниже порога крайней бедности, как показывает этот график.

 

Я обеспокоен тем, что недавний акцент на повествовании данных привел к сокращению четких и точных правдивых сообщений. Когда я был молодым, говорить, что кто-то «рассказывал истории», означало, что они придумали вещи. Эта негативная коннотация рассказывания историй описывает сегодня много историй. Поощрение людей к развитию навыков осмысления данных и общения должно сосредоточить их усилия на том, чтобы научиться узнавать, понимать и говорить правду. Это редко, как инструкция в рассказывании историй данных. Акцент чаще делается на убеждении, чем на правде, больше на искусстве (и искусстве), чем науке.

Почитать еще

ad etlvsdataprep 062719 177x142 - Логарифмическая шкала

ETL или подготовки данных

Технологии извлечения, преобразования и загрузки (ETL), которыми управляют исключительно ИТ, до недавнего времени были основным

Несколько видео о наших продуктах

085 - Логарифмическая шкала
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
106 - Логарифмическая шкала
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
1 11 - Логарифмическая шкала
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-01-27T01:13:15+02:00