///Проблема визуализации данных

Проблема визуализации данных

Следующая трехмерная древовидная карта была представлена ​​нашему участнику нашего дискуссионного форума.

Оглавление

Следующая трехмерная древовидная карта была представлена ​​нашему участнику нашего дискуссионного форума.

Этот график был выбран Биллом Гейтсом для включения в недавнее издание Wired Magazine, которое он редактировал в качестве гостя. Он объяснил, почему он включил график следующим образом:

Мне нравится этот график, потому что он показывает, что, хотя число людей, умирающих от инфекционных заболеваний, все еще слишком велико, эти цифры продолжают сокращаться. Фактически, меньше детей умирает, больше детей идет в школу, и больше болезней находятся на пути к ликвидации. Но многое еще предстоит сделать, чтобы еще более резко сократить число смертей в этом желтом блоке. У нас есть решения. Но нам нужно поддерживать поддержку там, где они развернуты, и оказывать давление, чтобы заставить их туда, где они крайне необходимы.

Это важное сообщение и благородная цель. Но насколько хорошо график выше рассказывает эту историю? Не очень хорошо, на самом деле.

 

Древовидная карта – это заполняющий пространство граф, который использует размер прямоугольников для кодирования одной количественной переменной и интенсивность цвета для кодирования секунды. Эта древовидная карта была создана Томасом Поростоцким для отображения потерянных по причине лет жизни во всем мире с использованием данных из базы данных метрик и оценок Института здоровья Университета Вашингтона.

 

Давайте посмотрим, что мы можем узнать из этого графика. Во-первых, мы замечаем, что зеленая секция, представляющая травмы, значительно меньше двух других, но об относительных размерах двух других секций трудно судить. Далее мы видим, что прямоугольники в желтом разделе в основном светло-желтые. Если мы проверим цветовую шкалу внизу, это покажет нам, что большинство заболеваний в этом разделе уменьшаются с ежегодной скоростью от -2% до -3%. Мы также можем видеть имена на больших прямоугольниках, которые представляют причины, ответственные за потерю большего количества лет жизни (например, малярия), и получить представление об их относительных размерах на основе их областей, но опять же, мы не можем сравнивать их Любая точность. Древовидные карты были изобретены Беном Шнейдерманом как средство для отображения взаимосвязей между множеством значений; наборы данных, которые слишком велики для отображения с использованием графиков, которые можно легче и точнее прочитать, например гистограммы. Только с огромным набором значений будет иметь смысл полагаться на площади прямоугольников и интенсивность их цветов для представления значений, учитывая тот факт, что наш мозг не может легко и точно интерпретировать эти атрибуты визуального восприятия.

 

Трехмерный эффект, добавленный в древовидную карту, не дает нам никакой информации и затрудняет декодирование древовидной карты. Одна из проблем, связанных с этим эффектом, связана с затемненными цветами, которые появляются по бокам древовидной карты для представления теней, которые не имеют смысла и вводят в заблуждение. Трехмерные графики редко бывают хорошей идеей, но эти трехмерные графики совершенно бесплатны.

 

Если бы древовидная карта была лучшим способом показать эту информацию, было бы лучше разделить три основных раздела, используя границы, а не разные цвета. Тогда единую расходящуюся цветовую шкалу можно было бы использовать для всей карты дерева. Например, отрицательные значения могли иметь различные оттенки красного, значения, близкие к нулю, могли быть серыми, а положительные значения могли иметь различные оттенки синего. Это значительно упростило бы декодирование значений, особенно значений, близких к нулю, представляющих небольшое изменение, по сравнению с текущим проектом, в котором используются три различные последовательные цветовые шкалы.

 

Есть еще одна проблема с древовидной картой, хотя она не очевидна, если вы не посмотрите на базовые данные. Цветовая шкала в древовидной карте показывает годовые процентные изменения в диапазоне от -3% до + 3%. Однако некоторые элементы в древовидной карте изменились на большее количество, чем это. Например, в период между 2005 и 2010 годами потери жизни на 100 000 человек в результате малярии сократились на 23,80%, что составляет годовой процент сокращения на 4,76%. Это большое улучшение, но этот выброс полностью теряется при просмотре древовидной карты, которая показывает малярию как одно из многих инфекционных заболеваний, ежегодно снижающихся от -2% до -3%.

Решение

Информация, отображаемая в древовидной карте, может быть легко отображена на двух параллельных гистограммах таким образом, чтобы она рассказывала историю четко и точно и была столь же визуально привлекательной, не прибегая к трюкам. Фактически, используя третью переменную для отображения информации о смертности по каждой причине, вместо того, чтобы показывать только информацию с точки зрения потерянных лет жизни, история может быть обогащена, чтобы дать более ясную картину мира. Вот наш редизайн:

Гистограмма слева показывает потерянные годы жизни на 100 000 человек в 2010 году по каждой причине, то есть информацию, закодированную областями прямоугольников в исходной древовидной карте. Столбцы были ранжированы и имеют цветовую кодировку, чтобы было легче сравнивать причины смерти. Годы жизни, потерянные для каждой причины в процентах от целого, также показаны в столбце текста, слева от столбцов.

 

Гистограмма в центре показывает процентное изменение между потерянными годами жизни на 100 000 человек в 2005 и 2010 годах по каждой из причин. В отличие от исходного графика, мы показываем общее процентное изменение за эти годы, а не годовой вариант.

 

Гистограмма справа отображает информацию, которая не отображается в исходной древовидной карте: уровень смертности на 100 000 человек по каждой причине. Тот факт, что эту информацию можно просматривать вместе с потерянными годами жизни, полезен, и мы рассмотрим ее более подробно чуть позже.

 

Вы можете заметить, что наши гистограммы содержат меньше элементов, чем исходная древовидная карта. Исходная древовидная карта содержит чуть более 100 прямоугольников, многие из которых не имеют маркировки. У нас был доступ к исходному набору данных, поэтому мы могли сделать гистограммы, которые включали бы элементы для каждой отдельной болезни, но мы решили, что это подорвало бы основную историю, включив десятки крошечных столбцов, поэтому мы решили объединить данные в полезные категории , Например, мы объединили все различные виды рака в один столбец «Рак», а все различные виды заболеваний сердца – в один столбец «Болезнь сердца». Кроме того, для предметов, на которые приходится менее 1% от общего числа смертей, если они не могли быть уже объединены в очевидную категорию, такую ​​как рак, мы переместили их в категорию «Другие». Например, смертность от дифтерии включена в строку «Другие инфекционные заболевания (включая менингит и гепатит)». В случаях, когда доступ к этим сведениям более низкого уровня важен, для предоставления этой информации может быть включена таблица, содержащая все отдельные причины смерти.

 

Обратите внимание, насколько проще интерпретировать значения, представленные столбцами, чем декодировать размеры прямоугольника и интенсивности цвета в древовидной карте. Тот факт, что меньше лет жизни теряется из-за инфекционных, материнских, неонатальных расстройств и нарушений питания, представленных серыми полосами, сразу же становится очевидным, потому что все серые полосы показывают уменьшение (отрицательные значения) на центральной диаграмме. Размещая показатели потери лет жизни и смертности по каждой причине в непосредственной близости друг от друга, легко найти расхождения между их моделями, которые могут быть информативными. Например, большинство серых столбцов имеют относительно короткие показатели смертности по сравнению с столбцами, представляющими потерянные годы жизни. Это потому, что многие из серых полос представляют болезни или проблемы, которые имеют тенденцию убивать детей, поэтому каждая смерть приводит к гибели многих лет. На мгновение в среднем каждая смерть от малярии отнимает у человека 67,2 года предполагаемой жизни. И наоборот, три самых больших коричневых столбика, «Рак», «Болезнь сердца» и «Инсульт», представляют собой вещи, которые имеют тенденцию убивать пожилых людей, поэтому каждая смерть имеет относительно меньшее влияние на потерянные годы жизни. Например, каждая смерть от сердечно-сосудистых заболеваний, в среднем, ответственна за приблизительно 17,5 лет потерянной жизни.

 

Используя гистограммы, мы упростили интерпретацию и сравнение данных, чтобы было проще сосредоточиться на историях, содержащихся в данных, а не пытаться декодировать неподходящий и неэффективно разработанный дисплей.

Проблема дизайна

Следующая диаграмма под названием «Миллиардный фунт-о-грамм» была создана Дэвидом Маккэндлессом для Guardian, чтобы помочь читателям понять размер дефицита британского бюджета (черный прямоугольник), сравнивая его с другими крупными суммами денег, которые знакомы.

Используя прямоугольники разных размеров, скомпонованные в виде древовидной карты , McCandless вынуждает нас выполнять задачу восприятия, которую мы не можем выполнить хорошо (то есть сравнение областей). Это плохой выбор, когда он мог бы вместо этого использовать гистограмму и позволить нам сравнивать длины баров, имеющих общую базовую линию, что мы можем сделать довольно хорошо. Кроме того, его расположение прямоугольников произвольно – не основано на категории или размерах значений – что усугубляет сложность.

 

Чтобы лучше понять этот момент, попробуйте ответить на следующие вопросы, не читая цифры, которые появляются в прямоугольниках:

  • Что представляет собой большую сумму: Ипотечное кредитование 2007 или NHS?
  • Насколько больше Ипотечное кредитование 2007 года, чем государственные пенсии?
  • Похоже ли государственная пенсия по сравнению с доходами Tesco на разницу между 62 и 59 или намного больше?
  • Что больше: поддержка доходов или полиция?

Вы можете утверждать, что эти сравнения не имеют решающего значения для истории, которая в первую очередь касается дефицита бюджета. Если мы заботимся только о сравнении дефицита с другими значениями, ничто в дизайне диаграммы не делает это простым, даже когда элементы соседствуют друг с другом. Например, попробуйте ответить на следующие вопросы:

  • Насколько больше дефицит, чем весь долг Африки перед западными странами, который появляется сразу же под ней? (И не читайте, читая цифры.)
  • Насколько больше «Катапультирование: покупка активов и кредитование», чем дефицит?
  • Как подоходный налог сравнивается с дефицитом?

Не читая цифры, вы вынуждены делать дикие предположения, которые значительно отличаются от правды.

Решение

Все эти сравнения невероятно просты, используя приведенную ниже гистограмму. Потратьте минуту, чтобы заметить, как легко вы можете увидеть отношения между этими значениями от самых больших до самых маленьких, и сравнить их. Особенно обратите внимание на то, насколько легко вы можете сравнить каждое значение с дефицитом бюджета, который отображается в виде вертикальной черной линии.

На гистограмме я придерживался цветов, выбранных Маккэндлессом, чтобы было проще сравнивать его график с моим, за исключением того, что я немного подправил несколько цветов для решения незначительных проблем. Например, в диаграмме Маккэндлесс некоторые цвета выделяются больше, чем другие, но они должны быть одинаковыми по значимости, если только нет причины отличать одни элементы от других. Кроме того, по неизвестной причине МакКэндлесс иногда изменял один цвет с прямоугольника на прямоугольник, что не имеет смысла и создает потенциальную путаницу. Обратите внимание, что некоторые зеленые прямоугольники светлее других, но все они представляют «Заработок».

 

Когда мы собираемся рассказать историю с помощью графика, мы должны разработать этот график, чтобы рассказать историю максимально четко и эффективно. Выбор типа графика, который просит людей делать сравнения, используя такие области, как график МакКэндлесса выше (или круговая диаграмма), не является способом сделать это, когда под рукой лучший выбор.

Проблема дизайна

Недавно читатель прислал мне следующий дисплей, созданный JP Morgan.

Этот дисплей сравнивает рыночную капитализацию (сколько будет стоить покупка всех акций компании по текущей цене) 15 крупнейших банков по состоянию на 20 января 2009 г. с их рыночной капитализацией во 2 квартале 2007 г., до того, как разразился банковский кризис. Люди должны сравнивать маленькие зеленые кружки с большими голубыми кругами, чтобы увидеть, насколько снизилась рыночная капитализация каждого банка. Зрительное восприятие у людей не развивалось, чтобы поддерживать сравнение двумерных областей, за исключением грубых приближений, которые далеко не точны. Возможно, создатели этого дисплея поняли, что мы плохо сравниваем области, потому что если вы посмотрите на числа, обозначающие кружки, вы увидите, что различия в числах, очевидно, не отражают различия в областях. Например, посмотрите на два круга JP Morgan. Исходя из их площади, синий круг в 3,75 раза больше зеленого круга. Теперь посмотрим на два числа, 165 и 85. Теперь мы видим, что значение синего круга даже не в два раза больше, чем зеленого круга. Создатели этого графика закодировали значения с использованием диаметра окружностей, но когда диаметр окружности изменяется, площадь меняется еще быстрее, что заставляет нас значительно переоценить разницу в значениях, если мы делаем то, что получается естественным образом – попытаться сравнить их области.

 

Вместо использования кругов создатели этого графика могли бы использовать старые добрые гистограммы.

 

Вот мой редизайн:

Как вы можете видеть на верхнем графике, используя составные столбцы, я упростил три сравнения: (1) значения за второй квартал 2007 года среди банков, (2) оставшиеся значения от 20 января 2009 года среди банков и (3) для каждого для отдельного банка разница между его значением за второй квартал 2007 года и тем, что осталось 20 января 2009 года. Кроме того, я непосредственно отобразил потери в процентах в нижней половине в порядке от наименьшего к наибольшему, что позволяет легко увидеть, что JP Morgan проиграл вторая наименьшая сумма, которая была основной целью первоначального графика, и сравнение относительного изменения рыночной капитализации среди банков, что ставит некоторые из небольших банков, у которых был самый большой процентный спад, например, RBS и Deutsche Bank, немного больше

 

Наконец, на исходном графике я заметил, что метка для кругов JP Morgan выделена жирным шрифтом. Исходя из этого, я предполагаю, что они пытаются привлечь внимание людей к тому факту, что у них было второе по величине снижение рыночной капитализации среди всех представленных банков. Если это действительно послание, которое они хотят донести, почему бы не сделать это очевидным? В моем редизайне нижний график делает это намного более очевидным, чем оригинал, но я также решил аннотировать столбец, представляющий JP Morgan, чтобы привлечь к нему внимание. Во многих случаях лучший способ помочь вашему графику подчеркнуть конкретное сообщение – включить это сообщение в качестве заметки рядом с вашим графиком, а иногда даже внутри него.

Проблема дизайна

Я нашел этот график в обзоре DM за сентябрь 2003 года. Он основан на исследованиях, проведенных Giga Research, дочерней компанией Forrester Research, Inc. Что вы об этом думаете?

Мой анализ

Данные отличные, но на дисплее беспорядок.

Решение

Вот те же данные, которые отображаются просто и ясно:

Я мог бы использовать цвета, но, честно говоря, этот график не нуждается в них. Ограничение черно-белого изображения позволяет вам скопировать эту полезную информацию и передать ее без потери качества. Можете ли вы представить, как будет выглядеть исходная круговая диаграмма, если вы сделаете ее черно-белую фотокопию?

Почитать еще

| Аналитика бизнеса

Визуальные коммуникации

Большое количество исследований— это еще и большое количество отчетов и презентаций. При разработке исследований мы

Несколько видео о наших продуктах

| Аналитика бизнеса
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
| Аналитика бизнеса
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
| Аналитика бизнеса
Проиграть видео
Как аналитика данных помогает менеджерам компании
2021-01-28T21:44:30+02:00