Прогнозирование цен на акции и искусственный интеллект

Напомним, что прогнозирование цен на акции на самом деле является одной из самых сложных задач в машинном обучении: машинное обучение успешно работает там, где есть сложное поведение, которое можно описать в данных, и где согласованные входные данные приводят к согласованным результатам.

«Я ничего не определяю. Ни красоты, ни патриотизма. Я принимаю каждую вещь такой, какая она есть, без предварительных правил о том, какой она должна быть ». — Боб Дилан

Примеры прогнозирование цен на акции

Давайте рассмотрим это на смешном упрощенном примере. Представьте, что вы дрессируете щенка, чтобы тот приносил вам утреннюю газету. В понедельник утром ваш щенок бежит к входной двери, когда слышит разносчика газет, берет газету и приносит ее вам. Вы угощаете щенка и хвалите его. Во вторник утром щенок делает то же самое, но не получает угощения, хотя получает похвалу. В среду щенок снова приносит газету (потому что он восторженный вымышленный песик и не понимает странных привычек людей) и получает в награду три собачьих угощения. В четверг щенок снова приносит газету — а вы ругаете его, забираете остатки еды и запираете.

Остаток четверга щенок размышляет о том, что он сделал не так, и в пятницу решает, что лучше бы он родился котенком.

Это очень упрощенно, но дело в том, что кому-либо или чему-либо очень трудно чему-либо научиться, когда одни и те же входные данные и действия могут привести к очень разным результатам.

Здесь нет бесплатных обедов. Но еда очень вкусная.

Таким образом, методы машинного обучения не могут волшебным образом заставить «сигнал» появляться из воздуха, и они не могут сделать нестабильные факторы более стабильными. Тем не менее, есть ряд полезных характеристик, которые отличают методы машинного обучения от традиционного методов.

Модели машинного обучения нелинейные, непараметрические и не предполагают предварительного статистического распределения. Модели машинного обучения обычно строятся алгоритмически, а не с использованием статистических методов. Это позволяет таким моделям лучше обнаруживать разрывы в результатах из-за того, что входные переменные пересекают определенные пороговые значения (ступенчатые функции или изменения в поведении), и освобождает их от тирании предположений, что нормальное распределение лежит в основе явления.

Модели машинного обучения обычно ориентированы на качество реальных прогнозов, а не на статистические показатели соответствия и значимости. Статистические меры соответствия часто связаны с тем, насколько точно данная модель соответствует предполагаемому распределению и оптимизируется для достижения этой цели. Модели машинного обучения оптимизируются и оцениваются с точки зрения того, насколько хороши их прогнозы по сравнению с тем, что произошло на самом деле, при этом передовая практика требует, чтобы модели машинного обучения оценивались по их способности делать прогнозы на ранее невидимых (вне выборки) данных с известными результаты.

Методы науки о данных часто очень хороши в извлечении ценности из нетрадиционных форм данных. Оцените тренд в отчетах центрального банка? Оцените риск понижения кредитного рейтинга на основании документов компании? Использование спутниковых снимков для определения уровня экономической активности?

В последнее десятилетие наблюдается бум альтернативных источников данных, хотя они, вероятно, не являются панацеей для инвестиций, которую некоторые могут предложить, добавление текстовых или графических данных к современным методам обработки естественного языка и глубокого обучения может привести к повышению производительности модели примерно на 10-20%.

Модели машинного обучения зачастую более надежны. Некоторые семейства алгоритмов машинного обучения, особенно основанные на деревьях решений, интерпретируют отсутствующие значения как просто еще одну «ветвь» дерева и не требуют интерполяции или иного заполнения отсутствующих данных. Действительно, в некоторых случаях, если существует систематический шаблон, в котором отсутствуют значения, эти типы алгоритмов могут идентифицировать это и использовать его.

Модели машинного обучения часто лучше справляются с несколькими сильно коррелированными переменными и не обязательно требуют (или выигрывают от) экономии. Это означает, что вместо того, чтобы выполнять трудоемкий одномерный анализ перед построением многомерной модели, построение модели может предшествовать выбору признаков, хотя высокая корреляция между характеристиками все еще может влиять на интерпретируемость модели, с этим можно справиться, принимая во внимание коллинеарные группы переменных при вычислении интерпретируемости на основе результатов.

Модели машинного обучения зачастую гораздо проще интерпретировать. Долгое время машинное обучение имело дурную репутацию: модели называли “таинственными черными ящиками” — magic box, в которых невозможно увидеть, что ими движет. Это мнение неоправданно и на сегодняшний день — устарело: современные методы интерпретируемости, основанные на результатах, проверяют модели машинного обучения на то, как они реагируют на определенные стимулы. При систематическом применении эти методы концептуально аналогичны риск-менеджменту, который подвергает портфель нескольким сценариям.

Это все не радуги и не единороги …

Итак, есть ряд веских причин рассмотреть возможность включения методов машинного обучения в арсенал инвестора и (или) аналитика. Но также не стоит забывать, что у всего есть свои ограничения, и важно знать об этом.

Мусор на входе, мусор на выходе по-прежнему очень важен. Хотя модели машинного обучения могут быть очень крутыми при моделировании очень сложных поведений и систем, которые управляются сотнями или тысячами переменных, в конечном итоге, если нет сигнала (то есть входные данные плохо описывают базовое поведение и, следовательно, не являются прогнозирующими результат, который вы моделируете), даже лучший алгоритм машинного обучения не сможет превратить эти данные в пригодную для использования модель. Между прочим, вот почему так важно уметь «быстро терпеть неудачу» в науке о данных — вы не хотите тратить слишком много времени на решение неразрешимой проблемы.

Модели непараметрического машинного обучения иногда не безграничны. Определенные алгоритмы машинного обучения отлично подходят для многих вещей, но могут с трудом справиться со значениями входных переменных, которые они раньше не видели. Линейную модель или нейронную сеть можно просто экстраполировать, применив коэффициент к экстремальному значению и сделав «обоснованное предположение», у древовидной модели не будет коэффициентов, и она может в конечном итоге сказать: «Я не знаю, что произошло в прошлый раз, когда входные данные достигли предела в этом направлении?»

Модели машинного обучения тоже не застрахованы от переобучения. В какой-то момент своей карьеры (хорошо если в самом начале) большинство столкнется с моделью, которая потрясающе выглядела на бумаге и была невероятно хорошо протестирована на исторических данных — и практически сразу перестала работать после того, как была запущена в производство. Для некоторых это могло вызвать вынужденную смену карьеры; другие оценят важность обеспечения того, чтобы модели машинного обучения не переоснащались — вы не хотите, чтобы модели изучали обучающие данные настолько хорошо, что фактически не работали с новыми данными. Чтобы избежать переобучения, необходимо следовать определенным передовым методам: убедитесь, что модели правильно проверены, выбраны и отработаны на ранее невидимых данных (проверка и тестирование вне выборки) и что они не учатся на информации, которая будет недоступна в момент прогнозирования (целевая утечка).

Искусственный интеллект не может сравниться с человеческой ленью или глупостью — знание предметной области и понимание данных важны как никогда. С ИИ хорошая модель является необходимым, но недостаточным условием для создания ценности. Для того, чтобы действительно повысить ценность прогнозного моделирования — независимо от используемых методов или алгоритмов — понимание моделируемой области и данных, используемых для ее описания, имеет решающее значение.

… Но автоматизация машинного обучения помогает.

Барьеры для входа быстро падают. Вам больше не нужны армии ученых-ракетчиков или докторов наук, чтобы участвовать в революции ИИ. Современные платформы автоматизированного машинного обучения, такие как DataRobot, имеют преимущества для пользователей с различными уровнями технологических навыков, независимо от того, умеют они кодировать или нет; отсутствие навыков программирования не является препятствием для создания сложных и мощных моделей машинного обучения с помощью DataRobot.

Автоматизация ускоряет процессы управления и соответствия. В жестко регулируемых отраслях, таких как финансовые рынки, использование стандартизированного автоматизированного процесса, с помощью которого создаются, развертываются и управляются модели машинного обучения, может значительно сократить время утверждения и накладные расходы на соблюдение нормативных требований. Это позволяет сосредоточиться на специфике конкретного варианта использования, будучи уверенными в том, что был соблюден воспроизводимый сквозной процесс анализа данных, независимо от технических возможностей создателя модели.

Но дело не только в том, чтобы сделать технологию доступной для более широкой аудитории. С помощью DataRobot многие повторяющиеся части процесса построения моделей машинного обучения автоматизированы, обеспечивая при этом разработку передовых практик; это позволяет пользователям стать намного более продуктивными. В результате опытные аналитики и специалисты по финансовым данным, которые хорошо разбираются в своих данных и умеют кодировать на Python или R, обнаруживают, что автоматическое машинное обучение дает им возможность значительно расширить проблемное пространство, которое они могут исследовать.

Мы рассмотрим, что это на самом деле означает и почему это важно, более подробно в третьей части этой серии.

Почитать еще

Несколько видео о наших продуктах

Презентация аналитической платформы Tibco Spotfire

Отличительные особенности Tibco Spotfire 10X

Как аналитика данных помогает менеджерам компании