Полное руководство по анализу текста

Напоминание – это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены.

Анализ текста

Напоминание – это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены. 80% запоминания означает, что 20% ваших данных вообще не были проанализированы и не были отмечены ни в одной категории или теме.

Точность – это количество правильных результатов, разделенное на количество всех возвращенных результатов. Точность 80% означает, что 20% ваших данных были неправильно включены в модель.

В программах «Взаимодействие с клиентами» и «Голос клиента» отзыв и охват обычно измеряются как процент записей, которые фактически помечены как минимум по одной теме в модели таксономии.

Например, в наборе данных обратной связи с клиентами, состоящем из 100 дословных букв для поставщика услуг связи, мы знаем, что 70 дословно относятся к различным тарифным планам, доступным для клиентов.

Модель анализа текста извлекает 50 дословных букв, релевантных для «Тарифных планов».

Из этих 50 только 45 правильно упоминают «Тарифные планы».

В этом примере:
Истинно-положительные: 45
Ложно-
отрицательные: 50-45 = 5 Ложно-отрицательные: 70-45 = 25
Истинно-отрицательные: 30-5 = 25

Отзыв = TP / (TP + FN) = 45/70 или 64%
Точность = TP / (TP + FP) = 45/50 или 90%

Чтобы объединить оценку 2 ниже 1, статистики используют оценку F. Оценка F1 представляет собой гармоническое среднее значение точности и запоминания с учетом обоих показателей.

F1 = 2 * Точность * Вызов /
Точность + Вызов

Насколько точным должен быть анализ текста?

Теперь, когда мы понимаем концепцию точности, также полезно понимать опасность педантизма в отношении точности анализа текста, особенно когда речь идет о программах управления опытом, таких как голос клиента.

Есть три основных проблемы с расчетами точности:

1. Большие наборы данных представляют собой проблему

Точность – это статистическая концепция, и ее может быть очень сложно определить в больших наборах данных, например, если у вас есть миллионы записей отзывов клиентов.

2. Требуется много работы.

Понимание точности зависит от сложных методов и расчетов, а некоторые даже используют вероятностные расчеты, чтобы достичь этого. Чтобы использовать «Истинно-положительные» и «Ложно-отрицательные» для определения вашей оценки точности, вам нужна актуальная информация о том, что правильно, а что нет. Это можно сделать только вручную пометив данные, и это может стать очень громоздким процессом.

3. Нецелесообразно использовать несколько тем.

Чтобы понять точность, большинство людей смотрят на отзыв таксономии или тематической модели. Например, если у вас есть 10 000 дословных отзывов, а ваша многоуровневая (таксономическая / иерархическая) тематическая модель охватывает 8 500 тегов, содержащих хотя бы одну из тем в модели, то мы будем считать, что отзыв составляет 85%. .

Однако расчет отзыва в нашем примере выше (тарифный план) фактически выполняется только для одной темы. Но что, если бы у нашей телекомпании было 30 тем? Истинная модель отзыва будет состоять в том, чтобы увидеть отзыв каждой и каждой темы или узла категории в модели – и именно здесь возникает трудность.

Скажем, текстовый отзыв, в котором говорится: «План с оплатой по мере использования – отличный, но сотрудники не помогли», на самом деле был помечен в теме «Полезность персонала», но не в разделе «Тарифный план» при расчете отзыва на уровне тематической модели, отзыв будет 100%. Однако, если вы проделаете такой же анализ на уровне тарифного плана, отзыв будет равен 0.

Точность анализа тональности в текстовой аналитике

Мы рассмотрели некоторые проблемы точности в тематическом анализе, но есть проблемы и в анализе настроений:

Ирония и сарказм

Когда люди выражают отрицательные эмоции положительными словами, это становится сложной задачей для моделей настроений. Есть разные способы обнаружить их, используя методы, основанные на правилах или обучении. Однако методы, основанные на правилах, ограничены для этого подхода, поскольку они могут поймать только то количество, для которого существуют правила. Модели, основанные на обучении, которые используют массивные наборы справочных данных, с большей вероятностью будут обеспечивать более высокую точность.

Однако хорошая новость заключается в том, что в многоканальной программе улучшения качества обслуживания клиентов такие случаи, как правило, будут намного меньше, чем даже 0,5% ваших общих данных VOC.

Отрицания

Это относится к использованию таких «ласт» или отрицательных слов, как «не» или «никогда». Явные отрицания вроде «сотрудники были невежливы» легко улавливаются системами, основанными на правилах или лексическими / словарными системами. Неявные, такие как «это стоило мне руки и ноги», требуют настраиваемых правил или моделей настроений, основанных на обучении, чтобы точно их уловить.

Имеет ли значение точность при анализе текста?

Краткий ответ: да. Возможность действовать и принимать решения на основе отзывов людей, конечно же, требует уверенности в данных.

Однако, как мы видели, рассмотрение точности как статистического проекта может быть трудным и потенциально ограничивать ценность, которую вы получаете от этого.

Бывают случаи, когда высокая отзывчивость жизненно важна, потому что действия нужно предпринимать только по нескольким экземплярам обратной связи. Как компания, выпускающая кредитные карты – всего несколько упоминаний слова «мошенничество» должно быть достаточно, чтобы вызвать действие.

Или цифровая команда, где любого всплеска упоминаний «неработающих ссылок» или «ошибок страницы» должно быть достаточно для принятия мер и улучшения опыта.

Бывают случаи, когда точность не имеет значения. Например, при анализе бренда упоминания имени конкурента следует анализировать независимо от настроения.

Или, если у вас есть отзывы клиентов, относящиеся к темам, связанным с травмами, судебными исками, судебными разбирательствами и т. Д., Им не нужна точность настроений, чтобы поднять флаг и инициировать более глубокое расследование.

Анализ текста на нескольких языках

Большая часть действий по улучшению впечатлений клиентов и сотрудников – это прислушиваться к огромной вселенной неструктурированной обратной связи, которая существует в форме ответов на опросы, разговоров в колл-центре, электронных писем, социальных сетей и многих других каналов.

У крупных глобальных компаний есть дополнительная проблема: они должны систематически слушать, анализировать и сообщать об обратной связи на нескольких языках. Действительно, некоторым крупнейшим компаниям необходимо делать это с помощью миллионов дословных ответов на 20 или более разных языках.

Обычно это можно сделать двумя способами:

Использование анализа родного языка для каждого соответствующего языка
Переведите все ответы на один «базовый язык» и проанализируйте весь контент на этом языке.

Хотя у каждого подхода есть свои плюсы и минусы, главное – сбалансировать точность и стоимость.

Оценка точности и стоимости анализа текста

Широко признано, что анализ родного языка дает большую точность. Это верно, учитывая, что перевод может терять лингвистические нюансы и возвращать грамматически неверные результаты.

Однако следует помнить о нескольких моментах:

Механизмы перевода становятся умнее с каждым годом , добавляются новые технологии. Например, с годами переводчик Google стал более точным, благодаря возможностям нейронного обучения, учитывающим лингвистические нюансы.
перевод очень хорошо работает с существительными, прилагательными и наречиями – эти части речи обычно чаще всего используются при построении темы. Общая структура предложения может потерять точность, но в основном эти части речи переводятся хорошо. И это то, что используется в инструментах построения тем и лексической тональности. Если технология не является лексической и использует механизм обучения, то результаты тональности переведенного текста могут отличаться по точности.

Анализ родного языка тоже может быть дорогостоящим.

В большинстве инструментов анализа текста таксономия построена / настроена для отражения согласованной структуры для сбора дословной обратной связи, которая будет использоваться для измерения и составления отчета об опыте сотрудников или клиентов.

Итак, это таксономия, в которую необходимо заранее вложить все ресурсы для создания, а затем периодически поддерживать для обеспечения постоянной точности.

Стоимость построения тематической модели для анализа на родном языке растет экспоненциально. Например, если на создание полностью настроенной автомобильной модели для точек взаимодействия после продажи / обслуживания на английском языке уходит 2 недели, то на создание этой модели на немецком языке также может уйти 4 недели.

Это также предполагает, что команда CX может найти местных пользователей на каждом рынке, обучить их использованию технологий / программного обеспечения, а затем заставить их построить модели на местном языке.

Стоимость не заканчивается на этапе сборки – по мере добавления дополнительных точек взаимодействия или опросов необходимо обновлять текстовые модели на всех языках. Каждые 3 месяца вам нужно будет проверять и добавлять или редактировать темы для поддержания постоянного уровня точности, и вам нужно будет делать это на всех языках.

Организациям необходимо оценить, оправдывает ли постепенное повышение точности с помощью анализа на родном языке дополнительных затрат ресурсов.

При анализе родного языка также следует помнить о некоторых других вещах:

Наличие возможностей родного языка . Возможности языкового анализа должны существовать для каждого рассматриваемого языка.

И хотя легко найти возможности анализа на родном языке для таких языков, как немецкий, французский, испанский и т. Д., Гораздо труднее найти эти возможности, когда речь идет, например, о скандинавских или балтийских языках. По этой причине некоторые из крупнейших в мире систем анализа текста анализируют только ограниченные языки в их родной форме.

Вы всегда можете отчитаться на всех местных языках . Текстовый анализ состоит из трех этапов: построение, анализ и отчет. Вы можете создавать модели на любом языке, но затем для отчетов в разные страны на ролевых информационных панелях отчеты всегда могут быть представлены на местном языке. Таким образом, местные пользователи по-прежнему должны иметь возможность читать отчеты и анализ на своем местном языке.
Последовательность является ключом к измерению – независимо от того, поддерживает ли технология 35 языков, конечной целью всегда должно быть согласованность в моделировании и отчетности; а также эффективность построения и поддержки модели таксономии, будь то анализ на родном языке или использование подхода «базового языка».
На анализ тональности больше влияет перевод, чем анализ темы . Поэтому предпочтительнее проводить оценку тональности на родном языке, а не на языке перевода. Это не должно означать расходование каких-либо ресурсов, поскольку в большинстве решений для анализа текста используются предварительно созданные методы анализа тональности, которые обычно не требуют какой-либо трудоемкой работы по построению модели в сценарии CX.

Что лучше всего подходит для анализа текста на нескольких языках?

В идеале создание модели должно выполняться не более чем на двух базовых языках с учетом размера команды, географического распространения, лингвистических способностей аналитических команд и затрат / усилий на создание и поддержку нескольких языковых моделей.

Самый эффективный подход включает четыре ключевых шага:

Выберите технологию, которая может беспрепятственно и автоматически переводить многоязычные дословные переводы на один или два основных языка.
Создайте тематическую модель на переведенном языке, используя сочетание подходов снизу вверх и сверху вниз. Технология должна упростить создание этого с использованием комбинации автоматического и ручного методов категоризации.
Технология должна обеспечивать оценку настроений на родном языке, поскольку это более точно.
Для целей отчетности текстовая модель или метки категорий, содержащиеся в базовой модели, должны легко переводиться на родной язык на уровне отчетности, чтобы пользователи на родном языке могли легко просматривать отчеты на своем родном языке вместе с дословно исходным родным языком.

Основные инструменты для программного обеспечения для анализа текста

В этом руководстве мы рассмотрели различные методы анализа текста, а также сложности построения моделей и иерархий и выполнения анализа текста на нескольких языках.

Выполнить все это самостоятельно – большая задача, и для этого будет создана одна очень небольшая организация.

К счастью, существует множество инструментов для анализа текста, которые помогут вам сделать выводы из открытого текста. Вот на что вам следует обратить внимание при использовании инструмента анализа текста для вашей организации:

Коллекция

Многоканальность – сбор текстовых данных по запросу и без запроса абсолютно необходим для корпоративной программы CX. Если вы анализируете только данные опроса, вы упускаете много полезной информации в таких источниках, как социальные сети, взаимодействие с кол-центром, онлайн-чат и т. Д.

Лучшие инструменты анализа текста могут анализировать данные из нескольких источников, а не ограничиваться одним или двумя. Это поможет вам увидеть полную картину того, что говорят клиенты или сотрудники, где бы они ни говорили, чтобы вы могли составить лучшую картину опыта и, следовательно, предпринять правильные действия по его улучшению.

Анализ данных

Статистический + текстовый анализ – должен иметь возможность запускать регрессионный анализ текстовых тем и тональности, чтобы определить фактическое влияние на показатель KPI CX. Независимо от того, влияет ли отношение персонала больше на мой NPS или качество продукта, очень важно понимать корреляцию и регрессию структурированных оценок с текстовой информацией.

Принятие мер

Анализ текста можно использовать не только для анализа совокупных первопричин и улучшения работы бэк-офиса. Он должен иметь возможность улучшать режим реального времени, закрывая цикл для недовольных клиентов на основе их открытых комментариев. Замыкание цикла не должно ограничиваться условиями, основанными на оценках, выставленных клиентом, но должно иметь возможность запускаться на основе определения темы или настроения из комментариев.

Визуализация данных

Гибкость в визуализациях – анализ текста – это больше, чем просто цветные облака слов или пузыри тем. Предоставление бесконечной гибкости в визуализации информации анализа текста с помощью структурированных данных (таких как сегменты, регионы, NPS, оценка усилий и т. Д.) И операционных данных (таких как объем вызовов, время обработки, жизненная ценность клиента и т. Д.), Обеспечивает легкость и скорость обнаружения аналитических данных и приоритезации действий . Наиболее полезными из них являются иерархическая диаграмма тем и настроений, столбцы с накоплением с тематическими и оперативными данными, столбцы групп лояльности с линией настроений и т. Д.

Легкость для понимания – убедитесь, что визуализации легко интерпретируются для всех в организации. Как правило, вы сможете сразу увидеть актуальные темы, разбивку настроений и изменения с течением времени.

Детализация комментариев – знание тенденций в темах и настроениях – это начало, но вы также захотите иметь возможность детализировать отчеты до отдельных ответов. Конечно, вы не собираетесь читать каждый комментарий полностью, но полезно копнуть глубже, чтобы увидеть, что люди на самом деле говорят в условиях падающих тенденций или сегментов с низким NPS. А также чтобы убедиться, что ваша тематическая модель работает хорошо.

Экосистема + интеграции

Единая платформа – для любой программы управления опытом лучше, чтобы ваши количественные и текстовые данные собирались и анализировались на одной платформе. Это экономит часы ручного труда, объединяя различные наборы данных и технологии вместе, чтобы получить полную картину.

Интеграции – если вы используете программу взаимодействия с клиентами с обратной связью, убедитесь, что ваш инструмент текстовой аналитики интегрирован в ваши существующие системы, такие как приложение для продажи билетов. Это означает, что в зависимости от настроений и темы соответствующие комментарии клиентов могут автоматически запускать последующие действия в системах, которые уже используются вашими командами, что ускоряет отслеживание и гарантирует, что у людей есть нужная информация, чтобы эффективно замкнуть цикл с помощью клиент.

Данные X + O вместе – конечная цель любой программы управления опытом – вернуть ценность для бизнеса. Поэтому ищите платформу, которая объединяет данные об опыте (X-данные), такие как текст, вместе с операционными данными (O-данные), такими как показатели продаж или данные HR. Это поможет вам установить связь между тем, что люди говорят, и их поведением – например, люди, которые говорят о полезном персонале в магазине, тратят больше, чем те, кто этого не делает. Таким образом, действия, которые вы предпримете на основе анализа текста, будут направлены на обеспечение рентабельности инвестиций и развитие бизнеса.

Почему вы должны использовать текстовую аналитику в клиентском опыте

Интеграция вашей платформы управления клиентским опытом (CXM) и программного обеспечения для текстовой аналитики означает, что вы можете использовать результаты текстовой аналитики отзывов клиентов по всей программе, чтобы стимулировать изменения во всей организации.

Включите текстовую визуализацию в отчеты для выявления тенденций, базовых показателей и определения ключевых драйверов
Глубоко анализируйте текстовые данные, такие как теги тем и настроений, наряду с другими количественными показателями на основе статистического анализа, чтобы найти кластеры и основные причины желаемого поведения
Автоматически создавайте ролевые информационные панели, которые включают в себя релевантную текстовую аналитическую информацию на панелях обслуживания клиентов и сотрудников.
Запускайте текущие действия на основе темы и настроения, чтобы замкнуть круговорот расстроенных и подверженных риску клиентов
Сопоставьте категории тем и рейтинги настроений, чтобы установить цели на будущее

Вы также сможете обнаружить ранее неизвестные скрывающиеся там темы, о которых вы даже не подозревали. Текстовая аналитика использует сложные модели машинного обучения, чтобы обнаружить слепые пятна, которые скрываются в бесплатных текстовых комментариях, что поможет вам выявить болевые точки клиентов, о которых вы даже не подозревали.

Открытый текст – отличный способ обнаружить болевые точки, о которых вы не знали, предоставить конкретный контекст того, почему респондент-клиент оставил отрицательную оценку NPS, и подготовить ваши команды по обслуживанию клиентов с помощью предыстории, необходимой для замкнутого цикла с клиентом.

Почитать еще

Несколько видео о наших продуктах

Презентация аналитической платформы Tibco Spotfire

Отличительные особенности Tibco Spotfire 10X

Как аналитика данных помогает менеджерам компании