Информационный шум

Чтобы тщательно, точно и четко информировать, мы должны определить предполагаемый сигнал, а затем усилить его, одновременно устраняя как можно больше шума. Это, безусловно, относится к визуализации данных, которая, к сожалению, создает много шума, если мы не будем осторожны и опытны.

Сигнал в потоке контента – это намеченное сообщение, информация, которую мы хотим, чтобы люди поняли. Шум – это все, что не является сигналом, за одним исключением: несигнальный контент, который каким-то образом способен усилить сигнал, никоим образом не ставя его под угрозу, не является шумом. Например, если мы добавим несущественные элементы или атрибуты в визуализацию данных, чтобы привлечь внимание читателя к сообщению, тем самым усилив его, не уменьшая или не изменяя сообщение каким-либо образом, мы не вносим шум. Никакой точный элемент данных сам по себе не всегда квалифицируется как сигнал или шум. Это всегда зависит от обстоятельств.

В физике отношение сигнал / шум, из которого возникла концепция, является выражением шансов: отношения одного возможного результата к другому. Сравнивая сигнал с шумом, мы хотим, чтобы шансы значительно улучшили сигнал. Какие шансы квалифицируются как благоприятные, варьируются в зависимости от ситуации. При передаче информации кому-либо соотношение сигнал / шум 99 к 1 обычно считается благоприятным. Однако, надеясь поступить в конкретный колледж, шансы 3 к 1 могут считаться благоприятными, но эти шансы будут ужасными в общении, поскольку это будет означать, что 25% контента составляют шумы. Другое отношение, распространенное в передаче данных, отношение вероятностей, связано с отношением шансов. Однако вместо того, чтобы сравнивать один результат с другим, как мы делаем с коэффициентами, отношение вероятностей сравнивает конкретный результат с суммой всех результатов. Например, отношение вероятностей 85 к 100 (т. Е. Интересующий результат будет происходить в среднем в 85% случаев) является математическим эквивалентом шансов от 85 до 15. Когда Эдвард Туфте представил концепцию соотношения «чернила данных» в 1980-х годах, он предложил отношение вероятностей, а не отношение шансов. Он утверждал, что процент чернил в диаграмме, отображающей данные, по сравнению с общим количеством чернил должен быть как можно ближе к 100%.

Каждый выбор, который мы делаем при создании визуализации данных, направлен на оптимизацию отношения сигнал / шум. Мы можем утверждать, что отношение сигнал / шум является наиболее важным фактором при визуализации данных – фундаментальным руководством для всех проектных решений при создании визуализации данных и фундаментальным показателем успеха, когда он появится в мире.

Стоит отметить, что конкретный контент не считается шумом просто потому, что он неудобен. Ранее я сказал, что сигнал является предполагаемым сообщением, но позвольте мне уточнить это далее, указав, что это предполагает, что сообщение является правдивым. Фактически само сообщение является шумом в той степени, в которой оно передает дезинформацию, даже если эта дезинформация является преднамеренной. Я видел много примеров визуализации данных, которые исключали или искажали жизненно важную информацию, потому что ясное понимание истины не было целью дизайнера. Я также был свидетелем случаев, когда сильно манипулируемые данные заменяли реальные, потому что они рассказывали более удобную историю, которая лучше поддерживала повестку дня. Например, исследовательский документ, в котором утверждается, что между двумя переменными существует тесная связь, может воздержаться от раскрытия фактических данных, на которых эти утверждения предположительно основаны, в пользу статистической модели, которая заменила бы значительную волатильность и неопределенность в отношениях, которые могли бы быть видно на реальных данных, с совершенно гладким и, казалось бы, определенным изображением этих отношений. В тех случаях, когда я спрашивал об этом исследователей, мне говорили, что волатильность в реальных данных была «просто шумом», поэтому они удаляли ее. Хотя они могут утверждать, что их гладкая модель иллюстрирует взаимосвязь более простым способом, я бы сказал, что она чрезмерно упрощает взаимосвязь, если они только сообщают модель, не раскрывая при этом фактические данные, на которых она основана. Просмотр фактических данных также помогает нам помнить, что статистические модели являются оценками, основанными на допущениях, которые никогда не бывают полностью верными.

Напомним, что шум в общении, включая визуализацию данных, – это контент, который не является частью и не поддерживает предполагаемое сообщение или контент, который не соответствует действительности. Включить сигнал; выключи шум.

Почитать еще

Несколько видео о наших продуктах

Презентация аналитической платформы Tibco Spotfire

Отличительные особенности Tibco Spotfire 10X

Как аналитика данных помогает менеджерам компании