• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследователи ВШЭ разработали метод для проверки надежности компьютерных прогнозов рецидива рака

Работа исследовательской группы факультета биологии и биотехнологии НИУ ВШЭ, выполненная в сотрудничестве с учеными МГУ и ИБХ РАН, теперь официально опубликована в международном журнале Stat. Исследование посвящено критической проблеме в биомедицине: как убедиться, что алгоритм машинного обучения выявляет действительные биологические закономерности, а не подстраивается под случайные шумы в данных.

«Неслучайный классификатор», основанный на экспрессии генов IGFBP6 и ELOVL5

«Неслучайный классификатор», основанный на экспрессии генов IGFBP6 и ELOVL5
Коллектив авторов

Острая необходимость в проверке алгоритмов

В современных клинических исследованиях анализ экспрессии генов нередко используется для предсказания течения заболевания и выбора оптимальной тактики лечения. Часто исследователи работают с парами генов и строят на их основе линейные классификаторы — модели, которые определяют, к какой группе пациентов относится конкретный человек. Однако когда число анализируемых пар велико, возникает серьёзная методологическая проблема: может ли алгоритм найти действительное различие между двумя группами пациентов или он просто случайно обнаружил комбинацию, которая работает на имеющихся данных?

«Представьте, что вы проверяете 570 пар генов в поисках маркеров рецидива рака молочной железы. Даже при отсутствии реальной закономерности некоторые пары случайно разделят данные идеально», — объясняет Антон Жиянов, научный сотрудник лаборатории. — «Нам нужна статистическая процедура, которая отделит такие «счастливые совпадения» от истинных биомаркеров».

Математический подход к верификации

Авторы разработали тест, основанный на вероятностной теории линейной разделяемости. Суть метода: если две выборки действительно различаются биологически, то вероятность их случайной линейной разделяемости должна быть очень низкой. Наоборот, если алгоритм работает по случайности, эта вероятность остаётся высокой даже на синтетических данных без биологического смысла.

Исследователи математически вычислили верхние границы p-значения — статистической меры, показывающей, насколько вероятно, что результат получен случайно. Особое внимание уделено двумерному случаю и нормальному распределению данных, что позволило получить практически применимые формулы. Алгоритмы реализованы на C++ с использованием параллельных вычислений, что обеспечивает масштабируемость на данные большой размерности.

Неожиданный результат на реальных медицинских данных

Когда авторы применили разработанный тест к 570 парам потенциальных генных маркеров рецидива рака молочной железы, результаты оказались весьма показательными: 559 из 570 предложенных классификаторов не выдержали статистическую проверку. Это означает, что подавляющее большинство моделей, демонстрирующих высокую точность на исходных данных, по сути полагались на случайные совпадения, а не на истинные биологические различия между пациентами.

«Это открытие демонстрирует масштаб проблемы множественного тестирования в биомедицине», — отмечает Александр Тоневицкий, декан факультета биологии и биотехнологии НИУ ВШЭ. — «Без надлежащей верификации исследователи и клиницисты могут сделать ошибочные выводы и рекомендовать неэффективные стратегии лечения».

Поиск истинных биомаркеров

Однако анализ выявил и надежные классификаторы, которые прошли статистическую верификацию. Особого внимания заслуживает модель на основе пары генов ELOVL5 и IGFBP6, ранее созданная учеными НИУ ВШЭ. Эта комбинация не только показала статистическую значимость согласно предложенному тесту, но и была успешно проверена на независимой выборке данных из архива The Cancer Genome Atlas (TCGA). Различия в уровне активности этих генов действительно коррелировали с риском рецидива, что подтверждает биологическую обоснованность классификатора.

Практическое значение для медицины и биологии

Разработанный подход становится важным инструментом для критической оценки алгоритмов в биологических и клинических исследованиях. Он позволяет:

  • дифференцировать достоверные находки от артефактов множественного тестирования
  • повысить уровень доказательности при использовании генных сигнатур для клинических решений
  • избежать дорогостоящих и ненужных исследований на основе недостоверных предсказаний
  • сосредоточить ресурсы на маркерах с подтвержденной статистической значимостью

Открытый доступ к инструментам

Исследование опубликовано в журнале Stat в открытом доступе. Все вычислительные алгоритмы размещены в открытом репозитории на GitHub (https://github.com/zhiyanov/random-classifier), что позволяет научному сообществу применить разработанные методы к своим исследованиям и данным.

Работа выполнена при финансовой поддержке программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства» и демонстрирует важность интеграции математического и биологического подходов в решении актуальных задач медицины.