Больших данные в медицине

LeadDiscovery — это высоко визуальнoe, интерактивное программное обеспечение биохимии для исследования химических структур и любых связанных с ними данных, таких как результаты биологического анализа.

Большие данные и машинное обучение в медицине

Чтобы понять, как анализ больших данных и алгоритмы машинного обучения могут улучшить результаты открытия лекарств, давайте рассмотрим три этапа на пути к успешным лекарствам, где новые технологии подходят лучше всего.

1. Понимание биологических систем и болезней

В большинстве случаев программа открытия лекарств может быть начата только после того, как ученые придут к пониманию причины и механизма действия, лежащих в основе определенного заболевания, патогенов или состояния здоровья.

Без преувеличения, биологические системы являются самыми сложными в мире, и единственный способ понять их – это следовать комплексному подходу, изучая несколько организационных «слоев», начиная от генов и заканчивая белками, метаболитами и даже внешними факторами, влияющими на них. внутренняя «механика».

В 1990 году группа ученых начала процесс расшифровки генома человека. Завершение проекта заняло 13 лет и стоило 2,7 миллиарда долларов. Часто называемый Книгой жизни, расшифровка генома была бы невозможна без огромных вычислительных мощностей и специального программного обеспечения.

Геном – это своего рода «инструкция» для организма, говорящая, какие белки и другие молекулы должны производиться, когда и почему. Полное знание генома открывает двери к гораздо более глубокому пониманию нашего тела, того, что с ним может пойти не так и при каких обстоятельствах.

Однако недостаточно просто смотреть на генетическую информацию, поскольку геном больше похож на бумажную карту мира: хотя он говорит, где расположены города и деревни, он не говорит, кто жители этих городов, что они из себя представляют. чем занимаются и как живут. Чтобы лучше понять, что происходит, ученые должны выйти за рамки одномерного представления генома и перейти к многомерному, связав геном с крупномасштабными данными о выходе этих генов в определенное время, в определенных местах в ответ на определенные давление на окружающую среду. Это то, что называется «многомерным» анализом .

«Омик» здесь относится к различным «слоям» биологической системы: Геном – все гены в организме, ДНК; транскриптом – множество РНК и других молекул, ответственных за «чтение» и «исполнение» информации генома; протеом – все белки в организме; метаболом – все мелкие молекулы; эпигеном – множество химических изменений ДНК и факторов, в том числе окружающей среды, которые диктуют такие изменения.

Такой многомерный подход очень перспективен для понимания механизмов заболеваний, особенно таких сложных, как рак и диабет. Они связаны с запутанной паутиной генов, влиянием факторов образа жизни и условий окружающей среды. Курите ли вы или занимаетесь спортом каждый день – это влияет на то, когда эти различные гены включаются и выключаются.

Исследования биологических систем генерируют огромные объемы данных, которые необходимо хранить, обрабатывать и анализировать. В 3 миллиарда химических кодирования единиц , что струна вместе образуют ДНК человека, если вводится в электронную таблицу Excel строку за строкой, будет производить 7900 миль длинный стол. Протеом человека содержит более 30 000 отдельных белков , которые были идентифицированы на данный момент. А количество мелких молекул-метаболитов в организме превышает 40000. Картографические данные, полученные в результате различных экспериментов, ассоциаций, комбинаций факторов и условий, генерируют триллионы точек данных информации.

Именно здесь начинают проявляться алгоритмы анализа больших данных и машинного обучения, позволяющие извлекать скрытые шаблоны данных, находить неизвестные ранее зависимости и ассоциации. Например, недавно опубликованный автоматизированный протокол крупномасштабного моделирования данных экспрессии генов может создавать модели, которые позволяют прогнозировать дифференциальную экспрессию генов как функцию составной структуры. В отличие от обычной парадигмы дизайна in silico, когда каждый исследует конкретный целевой ответ, недавно разработанный протокол открывает двери для виртуального скрининга и оптимизации для желаемых профилей экспрессии генов с несколькими целями.

Основанный в 2015 году биоинформатический стартап Deep Genomics разработал новые методы машинного обучения, которые могут находить закономерности в массивных наборах данных и выводить компьютерные модели того, как клетки читают геном и генерируют биомолекулы.

Другая компания, биофармацевтический стартап BergHealth из Бостона , использует аналитическую платформу на основе искусственного интеллекта, чтобы учесть разницу между здоровой и болезненной средой в биологии пациентов. По словам генерального директора компании Нивена Нараина, модели, которую они используют, не существует нигде в мире: «Мы изучили геномику, изучили метаболиты и липиды, белки, клинические данные, лекарства, которые использовали пациенты, и результат. они должны составить карту этого полного рассказа о пациентах », – говорит он.

Биоинформатический стартап NuMedii, Inc из Пало-Альто использует эксклюзивную технологию больших данных, первоначально разработанную в Стэнфордском университете, для анализа больших объемов научных данных вместе с запатентованными алгоритмами на основе биологических сетей для обнаружения связей между лекарствами и заболеваниями и биомаркеров, которые позволяют прогнозировать эффективность. Стартап работает в области интегративной геномики, сетевых методов, крупномасштабного машинного обучения и химиоинформатики.

Биоинформатический стартап Insilico Medicine, Inc недавно сформировал подразделение Pharma.AI, которое занимается разработкой глубоко изученных биомаркеров множественных заболеваний на основе транскриптомики, протеомики и биохимии крови, предикторов альтернативного терапевтического использования множества лекарств и аналитических инструментов для высокопроизводительного скрининга.

Очень интересный стартап Envisagenics использует облачную аналитику больших данных для извлечения биологически значимых изоформ РНК из необработанных данных последовательности РНК. Программная технология этого стартапа помогает обнаруживать новые лекарственные мишени и биомаркеры с помощью количественной оценки сплайс-изоформ в сочетании с прогнозной аналитикой, расставлять приоритеты генов, связанных с заболеванием, и предоставлять хорошо поддерживаемый список целей.

Важной практической целью вышеупомянутых исследований биологических систем является возможность идентифицировать белок или путь в организме, «мишень», играющую главную роль в механизме конкретного заболевания. Тогда можно было бы ингибировать или иным образом модулировать мишень химическими молекулами, чтобы влиять на течение болезни.

2. Поиск «правильных» молекул лекарства

После того, как ученые предложили подходящую биологическую мишень, пора искать молекулы, которые могут избирательно взаимодействовать с мишенью, стимулируя желаемый эффект – «поражающую» молекулу.

Существует множество парадигм скрининга для выявления молекул-мишеней. Например, популярный подход к высокопроизводительному скринингу (HTS) включает скрининг миллионов химических соединений непосредственно против лекарственной мишени. По сути, это своего рода метод проб и ошибок, чтобы найти иголку в стоге сена. Эта парадигма скрининга предполагает использование сложной роботизированной автоматизации, она дорогостоящая и вероятность успеха довольно низка. Но что в этом хорошего, так это то, что он не предполагает никаких предварительных знаний о природе химических соединений, которые могут иметь активность в отношении целевого белка. Таким образом, HTS представляется экспериментальным источником идей для дальнейших исследований и дает полезные «отрицательные» результаты, которые необходимо учитывать.

Другие подходы включают скрининг фрагментов и более специализированный подход к скринингу – физиологический скрининг. Это тканевый метод, направленный на поиск ответа, более согласованного с конечным желаемым эффектом in vivo, а не нацеливания на одну конкретную мишень для лекарственного средства.

Стремясь сократить расходы на вышеупомянутые сложные лабораторные экраны и повысить их эффективность и предсказуемость, ученые-вычислители усовершенствовали подходы к компьютерному открытию лекарств (CADD), используя фармакофоры и молекулярное моделирование для проведения так называемых «виртуальных» экранов библиотек соединений. В этом подходе миллионы соединений могут быть скринированы in silico против известной трехмерной структуры целевого белка (подход на основе структуры); если структура неизвестна, можно идентифицировать лекарственные препараты-кандидаты на основе знаний о других молекулах, которые, как известно, обладают активностью в отношении интересующей мишени.

CADD – еще одна многообещающая область, в которой алгоритмы анализа больших данных и машинного обучения могут стать «суперзвездами».

Стартап в области хеминформатики Numerate применяет новые алгоритмы машинного обучения в облачном масштабе к проблемам разработки низкомолекулярных лекарств. Numerate создала новую инновационную платформу для разработки лекарств, которая может быстро предоставлять новые потенциальные клиенты без необходимости в кристаллической структуре и с очень ограниченными данными SAR. Подход, которого придерживается компания, состоит в моделировании явлений, которые имеют решающее значение для успеха поиска, потенциальных клиентов и кандидатов на лекарства. Затем Numerate применяет полученные таким образом модели для исследования больших химических пространств с целью поиска новых терапевтических средств.

Cloud Pharmaceuticals , биотехнологический стартап, специализирующийся на использовании искусственного интеллекта и облачных вычислений для поиска в виртуальном молекулярном пространстве и разработки новых лекарств. Технология стартапа может выполнять высокоточные предсказания сродства связывания, выводить фильтры химических свойств для свойств, подобных лекарству, предсказывать безопасность и синтезируемость виртуальных соединений.

Atomwise , стартап в сфере медицинских технологий в бизнес-инкубаторе Y Combinator, использует нейронные сети глубокого обучения для открытия новых лекарств, достижения поразительных результатов в обнаружении попаданий, прогнозировании сродства связывания и обнаружении токсичности. Недавно компания смогла пройти через 8,2 миллиона соединений, чтобы найти потенциальные лекарства от рассеянного склероза за считанные дни. В другом проекте искусственная технология Atomwise смогла перепрофилировать некоторые из существующих лекарств для подавления Эболы. Эти препараты были предназначены для лечения не связанных заболеваний, и их потенциал для лечения лихорадки Эбола ранее был неизвестен. Компания сотрудничает с MERCK и другими известными биофармацевтическими организациями.

Точно так же недавно основанный биотехнологический стартап TwoXAR использует платформу DUMA ™ Drug Discovery, основанную на искусственном интеллекте, для оценки больших общедоступных и частных наборов данных для выявления и ранжирования совпадений между лекарством и заболеванием с высокой вероятностью. Полученные совпадения можно использовать для перекрестной проверки клинических исследований, перепрофилирования существующих лекарств или выявления новых кандидатов на лекарства для дальнейшего клинического тестирования.

3. Доклинические испытания

Одна из причин, по которой фармацевтическая промышленность переживает кризис и такой спад в исследованиях и разработках, заключается в том, что испытания на животных новых кандидатов в лекарственные препараты не очень репрезентативны для того, что будет для человека. Лекарства терпят неудачу на более поздних стадиях, и это стоит огромных денег для инвесторов и потраченного времени для компаний. Что еще более важно, это стоит жизни пациентам.

Новые алгоритмы искусственного интеллекта и подходы к большим данным теперь применяются для моделирования действия многих лекарств на многих тканях одновременно, как у «виртуального» человека.

Заключительные замечания

Прошло всего несколько лет с тех пор, как известный предприниматель в сфере высоких технологий Марк Андрессен написал свое знаменитое эссе «Почему программное обеспечение съедает мир» . Сегодня подтверждается новое утверждение: «Software Eats Bio» .

Новые вычислительные технологии и алгоритмы машинного обучения революционизируют биофармацевтическую промышленность и способы открытия лекарств. Системное понимание биологических процессов и механизмов заболеваний открывает двери не только для более совершенных молекул лекарств, но и для совершенно новой концепции персонализированной медицины, которая учитывает индивидуальную изменчивость окружающей среды, образа жизни и генов для каждого человека. Большие данные и машинное обучение – это технологии, лежащие в основе будущего точной медицины …

Преимущества

Отображение и доступ к широкому спектру многомерных химических данных, включая химические структуры Загрузка различных связанных химических и биологических таблиц данных в единый файл анализа TIBCO Spotfire® Высоко интерактивные возможности визуализации и фильтрации, быстрая изоляция соединений по ключевым критериям и химическому строению, для дальнейшего анализа Интерактивные инструменты для поиска структур

Визуализация данных и химический анализ

Ученым постоянно требуется программы биологического анализа, а также программы химических структур, для того чтобы оценивать все возрастающее количество параметров, которые включают в себя химические свойства, биологические анализы и результаты ADME, чтобы принять обоснованные решения о том, какие соединения синтезировать в дальнейшем. LeadDiscovery сочетает мощь TIBCOSpotfire® с научной аналитикой, которую химики привыкли ожидать от ChemDraw.

Эти два инструмента подходят как биохимикам так и физхимикам – требуется ли создать новый низкомолекулярный ингибитор протеинкиназы или уникальный лиганд для массового производства терефталевой кислоты. Lead Discovery – это оптимальный инструмент для интерактивных визуализаций, позволяющий исследовать большие наборы данных химической информации. Он избавляет от лишних хлопот со сводными таблицами и переносом молекул из базы данных в Excel. С Lead Discovery, химические структуры и связанная с ними информация находятся буквально на кончиках ваших пальцев, с дополнительной совместимостью с ChemDraw.

Рис. 1. Lead Discovery имеет функцию быстрой и точной фильтрации по химическим структурам. На изображении показана возможность Lead Discovery сужать большие наборы данных до специфической коллекции соединений. Отфильтровав, пользователи могут выбирать, подписывать и подсвечивать необходимые данные. Пользователи могут обрабатывать структуры в таблицах данных, прямо в режиме визуализации и прямо на графических осях для легкого SARанализа.

Характеристики и возможности больших данные в медицине

LeadDiscovery предоставляет богатый набор опций визуализации для исследования и анализа химических свойств, результатов тестирования и химических структур. Данные могут быть скомбинированы, визуализированы и отфильтрованы для проведения анализа на поднаборах или полном наборе данных для обнаружения тенденций в сериях соединений или конкретных структурных мотивов. С улучшенной визуализацией, скоростью и эффективностью, качество принимаемых решений может значительно возрасти.

Возможности ПО Lead Discovery включают:

Визуализации – 3D диаграммы рассеяния, линейные графики, секторные диаграммы, таблицы общей статистики, столбчатые диаграммы и гистограммы. Создание визуализаций и анализов методом перетаскивания элементов прямо на лету.
Просмотр и фильтрация химических структур – просмотр структур из файлов molfiles, SMILES, CDX (ChemDraw), или из химических баз данных, фильтрация с помощью алгоритмов уверенного сходства и субструктуры, импорт и экспорт SDfiles и ChemDraw для документов Excel. Выравнивание всех структур в наборе данных по выбранному показателю. Присвоение тегов данным, основываясь на химических свойствах, для дальнейшего анализа и классификации.
Интерактивные фильтры – фильтрация данных по химической структуре (точная, субструктурная, сходство), ползунки диапазонов, флажки, переключатели, списки или текстовый поиск.
Декомпозиция на R-группы – определите основной каркас в сериях связанных структур и Lead Discovery будет анализировать и отображать все присоединенные R-группы, таким образом, исследователи могут различать выгодные паттерны замещения и предпочтительные заместители.
Кластеризация по химической структуре – Кластеризация на основе любого столбца, включая сходство химической структуры (отпечатки пальцев).
Вычисление химических свойств – динамический расчет свойств химической структуры, основанный на встроенных прогнозирующих алгоритмах.
Субструктурный поиск с подсветкой результатов – при импорте структур из базы данных.

Компоненты платформы TIBCO Spotfire®

TIBCOSpotfire® Asset Management Analytics Library – Совместное использование файлов анализа из централизованного защищенного репозитория, доступного по всей организации. Возможность интерактивного обсуждения, включая визуализации и функции фильтрации.

TIBCO Spotfire® Analytics Server – Обеспечивает централизованное администрирование прав доступа конечных пользователей и конфигураций клиента, облегчая развертывание аналитики по всей организации. Доступ к данным и функционалу, основанный на ролевой модели, встраивается в существующую инфраструктуру безопасности. Desktop-клиенты удаленно обновляются с сервера, включая пользовательские расширения.

TIBCO Spotfire® Web Player – Позволяет организациям легко разворачивать интерактивные аналитические приложения и рабочие процессы для широкой аудитории потребителей аналитики. Анализы, создаваемые и сохраняемые пользователями TIBCO Spotfire® Pro с Lead Discovery доступны пользователям TIBCO Spotfire® Pro Web Player.

TIBCO Spotfire® Developer – Полный набор интерфейсов программирования приложений (API), который позволяет разработчикам интегрировать и автоматизировать платформу, а также дополнять ее абсолютно новыми пользовательскими инструментами, визуализациями и другим.

ПО Lead Discovery помогает ученым сфокусироваться на принятии решений – например, по какому конкретному пути синтеза следовать – позволяя исследовать все данные, доступные через единое окружение. Возможность ассоциировать точки данных в различных визуализациях со структурами в программе для просмотра структур является мощным способом представления данных. Эти взаимосвязи могут быть лучше поняты, и последующие решения могут быть приняты с большей уверенностью.

Рис. 2. С Lead Discovery пользователи могут создавать списки химических соединений, как показано выше. Как только список (или серия списков) был создан, пользователи могут применять техники группировки, чтобы завершить анализ методом сопоставления молекулярных пар (MMPA).