• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

ExhauFS: выбор признаков на основе исчерпывающего поиска для классификации и регрессии выживания при онкологиях

Сотрудники Лаборатории молекулярной физиологии факультета биологии и биотехнологии НИУ ВШЭ совместно с коллегами из ИБХ РАН, МГУ имени М.В. Ломоносова, Московского центра фундаментальной и прикладной математики, а также Института нанотехнологий микроэлектроники РАН разработали ExhauFS – инструмент, позволяющий провести исчерпывающий поиск подмножеств признаков для построения наиболее мощных моделей классификации и регрессии выживания при онкологических заболеваниях.

Исходные коды и документация программы ExhauFS доступны на GitHub. Научная статья, описывающая принципы работа программы, опубликована в журнале PeerJ.
       Отбор признаков – одна из основных техник, используемых для предотвращения перебора в приложениях машинного обучения. Наиболее простым подходом к выбору признаков является исчерпывающий поиск: он позволяет перебрать все возможные комбинации признаков и выбрать модель с наивысшей точностью. Этот метод вместе с его оптимизациями активно используется в биомедицинских исследованиях, однако до настоящего момента публично доступная реализация отсутствовала.
       Группа исследователей ВШЭ представляет программу ExhauFS – удобную реализацию подхода исчерпывающего поиска в командной строке для классификации и регрессии выживания. Помимо описания инструмента, в сопровождающую научную статью также включены три примера применения ExhauFS, что позволяет всесторонне рассмотреть реализованную функциональность программы.
       В качестве первого примера работы с ExhauFS в статье рассматривается игрушечный набор данных о раке шейки матки – на его базе авторы иллюстрируют основные концепции. Также исследователи использовали многокогортные наборы данных микрочипов рака молочной железы для построения сигнатур генов для классификации 5-летнего рецидива. Стоит отметить, что большинство сигнатур, построенных с помощью ExhauFS, преодолели порог чувствительности и специфичности 0,65 на всех наборах данных, включая валидационный. Более того, ряд генных сигнатур продемонстрировал надежную работу на независимом наборе данных RNA-seq без какой-либо перенастройки коэффициентов, т.е. оказался кросс-платформенным. Наконец, для прогнозирования общей выживаемости пациентов с колоректальным раком были использованы регрессионные модели выживания Кокса для сигнатур isomiR. Как и в предыдущем примере, большая часть моделей преодолела предварительно установленный порог индекса конкордации 0,65 на всех наборах данных.
         Дополнительно в обоих реальных сценариях (наборы данных по раку молочной железы и колоректальному раку) ExhauFS сравнивался с современными моделями отбора признаков, включая L1-регуляризованные разреженные модели. Однако, используя альтернативные подходы к выбору признаков, ученые не смогли построить надежные кросс-платформенные классификаторы.