Научный сотрудник факультета Антон Жиянов успешно защитил кандидатскую диссертацию по специальности "компьютерные науки"

27 февраля 2026 года состоялась защита кандидатской диссертации научного сотрудника Лаборатории молекулярной физиологии факультета биологии и биотехнологии НИУ ВШЭ Жиянова Антона Павловича на тему «Методы оценки качества линейных классификаторов для анализа последовательностей микроРНК». Работа была представлена к защите на диссертационном совете по компьютерным наукам НИУ ВШЭ и высоко оценена членами Комитета по защите, которые единогласно рекомендовали присудить Антону Павловичу учёную степень кандидата компьютерных наук. Окончательное решение о присуждении Антону Павловичу учёной степени и выдаче диплома было принято диссертационным советом по компьютерным наукам НИУ ВШЭ на заседании 26 марта 2026 года.
Работа выполнена в Национальном исследовательском университете «Высшая школа экономики» под руководством доктора биологических наук, академика РАН, профессора Александра Григорьевича Тоневицкого. Диссертация находится на стыке машинного обучения, вероятностно-статистических методов и молекулярной биологии, фокусируясь на задачах, возникающих при анализе экспрессии микроРНК и их изоформ в биомедицинских исследованиях. Результаты, положенные в основу диссертации, были получены при выполнении научных задач Программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства».
В первой главе диссертации предложен аксиоматический подход к оценке и сравнению метрик качества классификации. Автор формализует набор свойств (аксиом), которым должна удовлетворять «хорошая» метрика, и проверяет их выполнение для ряда широко используемых показателей — точности, сбалансированной точности, корреляции Мэтьюса, коэффициента Коэна, F-меры и других. Показано, что наиболее естественные свойства — монотонность, несмещённость и возможность интерпретации метрики как расстояния — принципиально несовместимы: не существует единой метрики, обладающей всеми этими свойствами одновременно. В качестве ответа на это ограничение предложен новый класс метрик — обобщённые средние, включающие в себя, в частности, корреляцию Мэтьюса и симметричную сбалансированную точность и удовлетворяющие большинству рассмотренных аксиом.
Вторая глава посвящена статистической верификации линейных классификаторов. Рассматривается вероятность почти линейной разделимости двух выборок в двумерном пространстве признаков, что позволяет оценивать, является ли качество классификатора следствием реальных различий между классами или результатом случайных флуктуаций и множественного тестирования. Автор получает новые, более точные верхние оценки вероятности почти линейной разделимости, в том числе для нормально распределённых выборок — важного частного случая для биомедицинских данных. На основе этих оценок построен критерий однородности, позволяющий по числу ошибок классификатора делать вывод о его статистической значимости.
Особое внимание в работе уделено линейным классификаторам с малым числом признаков, которые используются в биоинформатике для построения диагностических и прогностических тест-систем на основе экспрессии небольшого набора генов или микроРНК. Показано, что разработанные оценки и критерии позволяют корректно учитывать эффект множественного тестирования и подтверждать «неслучайность» таких классификаторов даже при относительно небольших объёмах независимых тестовых выборок. В качестве примера продемонстрировано применение методики к ранее предложенным классификаторам рецидива рака молочной железы у ER-положительных пациенток.
Третья глава носит прикладной характер и посвящена задачам предсказания формирования изоформ микроРНК (isomiRs). Используя данные RNA-seq из проекта The Cancer Genome Atlas (TCGA), автор анализирует экспрессию изоформ микроРНК в различных опухолевых тканях человека и исследует, как особенности последовательности при-микроРНК и структура шпильки связаны с точностью расщепления белком Dicer. На основе выделенных признаков строится линейный классификатор, который по нуклеотидной последовательности в окрестности позиции расщепления предсказывает, будет ли образована одна каноническая микроРНК или несколько изоформ.
Точность разработанного классификатора составила 0,71, при этом p-значение линейного критерия однородности оказалось ниже 0,05, что свидетельствует о статистической значимости выявленных закономерностей. Анализ весов классификатора позволил выделить нуклеотидные мотивы, ассоциированные с различным характером расщепления: мотив AGCU на 5′-конце 3′-плеча при-микроРНК связан с отсутствием изоформ, тогда как мотив CCAG — с их формированием. Эти мотивы были экспериментально подтверждены с использованием трансдукции клеточной линии MDA-MB-231 короткими шпилечными РНК, обрабатываемыми ферментами Drosha и Dicer по тем же молекулярным механизмам, что и эндогенные микроРНК.
Результаты диссертации легли в основу трёх публикаций, две из которых вышли в журналах из списка А, индексируемых Web of Science и Scopus, а одна — в материалах конференции уровня ACONF. Основные положения работы докладывались на международной конференции NeurIPS 2021, в журнале RNA Biology, а также представлены на ряде научных семинаров и конференций в России и за рубежом.
Коллектив Лаборатории молекулярной физиологии поздравляет Антона Павловича Жиянова с успешной защитой кандидатской диссертации и желает дальнейших научных успехов и новых ярких результатов!
Окончательное решение о присуждении Антону Павловичу учёной степени кандидата компьютерных наук и выдаче диплома кандидата компьютерных наук было принято диссертационным советом по компьютерным наукам НИУ ВШЭ на заседании 26 марта 2026 года.
Жиянов Антон Павлович
Лаборатория молекулярной физиологии: Научный сотрудник