Ихилов Израиль Ichilov
Топ Ихилов
Официальный сайт
Израиль, Тель-Авив, ул. Вайцман 14
Тель-Авив: +972-3-7621629 Москва: +7-495-7773802 Прошу перезвонить

Позвонить в Топ Ихилов

Оценка предиктивной значимости молчащих мутаций для классификации рака и прогнозирования его развития

Ученые в Израиле сделали важное открытие, которое дает новые перспективы для лечения рака.

Учёные из Тель-Авивского университета сделали очередное важное открытие – они смогли заранее определить тип рака и уровень смертности от него на основе «тихих» мутаций в раковых геномах. Результаты исследования указывают на то, что модели молчащей мутации превосходят эквивалентные нулевые модели по возможности классификации всех исследованных видов рака и оценки вероятности выживания в течение 10 лет после постановки диагноза. Более того: комбинирование молчащих и немолчащих мутаций позволило достичь наилучших результатов в классификации 68% видов рака и наилучшей оценки выживаемости вплоть до девяти лет после постановки диагноза. Таким образом, молчащие мутации обладают существенной предиктивной значимостью и для классификации рака, и для прогнозирования его развития, что, скорее всего, связано с их воздействием на экспрессию генов. Исследователи рекомендуют интегрировать молчащие мутации в научные исследования онкологических заболеваний с тем, чтобы раскрыть полный геномный ландшафт рака и его связь с состоянием опухоли.

Введение

Быстрое развитие технологий секвенирования нового поколения (NGS) и ускорение вычислительных способностей за последние несколько лет привело к доступности обширных сведений о геноме. Многие исследования, в которых использовались эти данные высокого разрешения, определяют рак как группу гетерогенных геномных заболеваний, для которой характерны обширные различия как внутри новообразования, так и между разными опухолями. Более того: у пациентов с раком разных видов обнаруживались общие генетические характеристики, в то время как у пациентов с раком одного вида встречались существенные различия. Эти данные подчеркивают необходимость разработки персонализированных методов лечения рака, воздействующих на гены.

На данный момент известно, что сотни генов стимулируют развитие рака. Многие другие все еще изучаются. Некоторые гены, включая TP53, BRAF, EGFR и IDH1, уже стали мишенями для генной терапии. Тем не менее, для полного раскрытия геномного ландшафта рака необходимо преодолеть еще множество препятствий. В настоящее время большинство актуальных исследований основывается на данных, полученных по результатам полного секвенирования экзома (WES). Кроме того, многие работы сосредоточиваются исключительно или преимущественно на немолчащих мутациях – альтерациях в кодирующих участках, вызывающих изменения в последовательности аминокислот производимого белка. Молчащие мутации – например, модификации в интронах, нетранслируемые области (НТО’5 и НТО’3) и даже синонимичные мутации в самом кодирующем участке по большему счету исключаются из анализов.

Вместе с тем злокачественные молчащие мутации могут разрушительно воздействовать на экспрессию генов, что в ряде случаев вызывает даже более значительные последствия, чем воздействие немолчащих мутаций. Мутации в регуляторных областях, включая промоторы и энхансеры, могут разрушить или сформировать новые участки связывания транскрипционных факторов и вызвать изменения в регуляции транскрипции. Мутации в нетранслируемых областях потенциально влияют на регуляцию трансляции либо модифицируют участки связывания микроРНК и тем самым воздействуют на стабильность мРНК. Синонимичные мутации способны изменить все аспекты экспрессии генов и повлиять на скорость трансляции, фолдинг белка, транскрипцию, стабильность мРНК и сплайсинг.

В целом, молчащие мутации обладают потенциалом к модификации всех фаз процесса генной экспрессии, что может привести к повышению или снижению уровней белков. Соответственно, даже несмотря на то, что большинство молчащих мутаций не изменяют функции белков, они могут существенно повлиять на уровни белков и состояние злокачественной опухоли.

Мы полагаем, что для более углубленного понимания геномного ландшафта, непосредственно связанного с развитием и прогрессированием рака, необходимо включить эти мутации в онкологические исследования. В частности, мы считаем, что необходимо инкорпорировать молчащие мутации в прогностические модели.

Поразительная гетерогенность раковых геномов – даже у пациентов с предположительно одним видом рака – сильно осложняет прогнозирование. Изучая только немолчащие мутации, мы упускаем большую часть комплексных мутационных паттернов в этих раковых геномах – в то время как полные паттерны могли бы улучшить прогнозирование. Более того: молчащие драйверные мутации, хоть и считающиеся в настоящее время нечастыми в сравнении с немолчащими драйверными мутациями, могут иметь огромное влияние и, соответственно, способствовать построению более точных прогностических моделей. И действительно: предыдущие научные работы демонстрируют, что молчащие и немолчащие мутации, модулирующие экспрессию генов, способны значительно повлиять на фенотип и выживаемость раковой клетки. Кроме того, в современных исследованиях идентифицируются молчащие мутации, которые рецидивируют при определенных видах рака и потенциально стимулируют развитие болезни.

Тем не менее, насколько нам известно, ни в одном другом исследовании не проводился обширный количественный анализ с сравнением прогностической значимости различных видов мутаций в отношении классификации и прогрессирования рака. В представленной работе мы исследуем молчащие и немолчащие мутации, стремясь дать количественную оценку предиктивной значимости различных молчащих мутаций в диагностике рака и определении вероятностных показателей выживаемости пациентов. Полученные данные мы сравниваем с результатами анализа немолчащих мутаций.

Ход исследования

Обработка данных и конструирование признаков

Мы извлекли геномные и клинические данные 9915 пациентов с 33 видами рака из Атласа ракового генома (АРГ). Геномные данные состояли из подробной информации о мутациях ДНК; клинические данные представляли собой личные сведения о пациентах, включая жизненный статус. Эти данные использовались для выполнения двух задач: классификации вида рака и оценки выживаемости.

Геномные данные разделены на пять категорий. Одна категория содержит все немолчащие мутации (экзонные мутации, влияющие на аминокислоты). Оставшиеся четыре категории содержат молчащие мутации из разных участков, находящихся внутри генов либо прилегающих к ним; синонимичные мутации (экзонные мутации, не влияющие на аминокислоты напрямую), мутации в интронах, нетранслируемые или фланкирующие области. Важно отметить, что геномная позиция считается мутировавшей у отдельного пациента только в том случае, если злокачественные и здоровые ткани этого пациента отличаются друг от друга содержанием ее нуклеиновой кислоты.

На следующем этапе предварительной обработки данных мы использовали исходные показатели для создания трех видов признаков для каждой категории. Признаки отражали разные разрешения:

  1. Признаки низкого разрешения – указывают на число мутаций в целом гене у каждого пациента;
  2. Признаки среднего разрешения – указывают на число мутаций в сегменте гена длиной в 50 нуклеотидов у каждого пациента;
  3. Признаки высокого разрешения – бинарные признаки, указывающие на то, произошла ли специфическая мутация у каждого отдельно взятого пациента.

Анализ признаков из разных уровней разрешения улучшает результаты моделирования и позволяет выявить специфические мутации, регуляторные области и целые гены, связанные с состоянием раковой опухоли.

Признаки, созданные для каждой из пяти категорий, использовались в качестве пяти отдельных массивов данных (массивы одиночных мутаций). Мы также создали шестой массив, объединяющий признаки всех видов мутаций (массив всех признаков). Используя шесть массивов, мы произвели диагностику рака и оценили выживаемость пациентов. Изучение действия моделей, основанных на шести массивах, позволило сравнить предиктивные возможности признаков молчащих и немолчащих мутаций (молчащие признаки и немолчащие признаки).

Молчащие признаки улучшили результаты классификации всех видов рака в сравнении с нулевой моделью

В рамках выполнения задачи по классификации рака использовались только те заболевания, которыми страдали более 200 пациентов (суммарно 19 видов рака). Для каждой пары из вида рака и массива данных мы создали модель контролируемого обучения «один против всех» (OVA). В частности, каждая модель размещала признаки в массиве данных, чтобы предсказать, страдал ли пациент определенным видом рака («положительный» результат). Если он страдал любым другим видом рака из выборки, результат помечался как «отрицательный», так как модель прогнозировала только существование определенного вида рака. В данном разделе представлены результаты такого анализа.

Как упоминалось выше, комбинация признаков из трех уровней разрешения привела к наилучшим результатам классификации по видам рака. Наихудшие результаты дала модель, в которой применялись признаки фланкирующей области с целью диагностики глиобластомы (GBM); ее результат был в 1,9 раз лучше аналогичной нулевой модели. Наиболее эффективной моделью с применением молчащих признаков оказалась интронная модель, предназначенная для диагностики серозной цистаденокарциномы яичников (OV); ее индекс F1 превышал индекс аналогичной нулевой модели в 20 раз.

Даже несмотря на то, что в целом немолчащие модели достигали лучших результатов по сравнению с молчащими моделями, для нескольких видов рака и те, и другие дали схожие показатели. Так, в отношении выявления инвазивной карциномы молочной железы (BRCA), гепатоцеллюлярной карциномы печени (LIHC) и OV разница в действии немолчащей модели и интронной модели составила менее 10%. Что касается диагностики саркомы (SARC), немолчащая модель превзошла модель НТО всего лишь на 2%, фланкирующую модель – всего лишь на 12%. Более того: модели всех признаков, в которых использовались и молчащие, и немолчащие признаки, получили более высокий индекс F1 по сравнению с немолчащими моделями для 13 из 19 видов рака. Что касается остальных видов рака, модели дали очень похожие результаты.

Чтобы учесть количество признаков, мы произвели такой же анализ с применением сбалансированных массивов данных, и его результаты подчеркивают высокую диагностическую значимость молчащих мутаций. В сбалансированной версии интронная модель превзошла немолчащую модель при анализе шести видов рака, а НТО-модель и фланкирующая модель превзошли немолчащую модель при анализе двух видов рака. Как и при несбалансированных массивах, комбинация молчащих и немолчащих мутаций вместо использования только последних улучшила результаты классификации для 12 из 19 видов рака (с учетом того, что массивы всех признаков в этом анализе содержали то же количество признаков, что и немолчащие массивы). Все эти данные подтверждают гипотезу о том, что молчащие мутации действительно влияют на механизмы развития рака и вмещают дополнительную предиктивную информацию, которую невозможно получить из одних только немолчащих мутаций.

Суммарная мутационная нагрузка – это еще один искажающий фактор, способный повлиять на результаты классификации. Чтобы убедиться в том, что улучшение, вызванное добавлением молчащих признаков к немолчащим признакам, не имеет первоочередной связи с повышением общей мутационной нагрузки вследствие такого добавления, мы изучили, как повышение общей мутационной нагрузки соотносится с улучшением индекса F1 для разных видов рака. По результатам обнаружилась корреляция Пирсона R = 0,38 (p = 0,1), указывающая на то, что только 14% изменений в индексе F1 можно отнести на счет повышенной мутационной нагрузки. Таким образом, несмотря на некоторое влияние мутационной нагрузки на результаты классификации, это не основной фактор.

Еще один интересный феномен заключается в существенных различиях в способности моделей диагностировать различные виды рака. Несмотря на то, что пациенты с BRCA, LGG (низкозлокачественная глиома) или COAD (аденокарцинома кишечника) получили правильные диагнозы (по меньшей мере по одной модели), пациенты с KIRP (папиллярный почечно-клеточный рак) и STAD (аденокарцинома желудка) часто получали неверный диагноз. Чтобы установить происхождение этого отличия, мы изучили схожие черты в генетических профилях пациентов с различными видами рака и выяснили, действительно ли опухоли с более явным генетическим сходством чаще подвергаются ошибочной классификации.

Мы изучили соотношение между индексом сходства Жаккара и частотой ошибочной классификации для каждой пары видов рака и получили коэффициент корреляции Спирмена 0,72 (p-значение <10-28), согласно которому сходство генетических профилей пациентов с разными видами рака действительно является основной причиной ошибочной классификации. Вместе с тем это не единственная причина, так как она объясняет только ~52% вариантности в частоте ошибочной классификации. Высокая мутационная гетерогенность среди пациентов с одним видом рака также может привести к ошибке в классификации.

Молчащие признаки составляют 32% от 10 самых предиктивных признаков для классификации рака (в среднем для всех видов рака)

Каждая модель OVA содержит рейтинг важности всех своих признаков. Изучение рейтинга молчащих признаков среди всех признаков – это еще один способ оценить их предиктивную значимость. При обзоре рейтинга важности признаков в моделях всех признаков молчащие признаки составили почти половину первых 100 признаков и треть от первых 10 признаков (выбранных из сотен тысяч) в среднем по всем видам рака. Вместе с тем рейтинг молчащих признаков существенно варьировался между видами рака; если в первых 10 признаках аденокарциномы легкого (LUAD) присутствовали только немолчащие признаки, из 10 первых признаков плоскоклеточной карциномы шейки матки (CESC) восемь оказались молчащими. В целом, у 18 из 19 видов рака в первых 10 признаках присутствовал по меньшей мере один молчащий признак, что свидетельствует о их важности. Мы повторили анализ со сбалансированными массивами данных и получили схожие результаты.

Оценивая влияние полиморфизма (природа мутации: инсерция, делеция или ОНП) на рейтинг важности, мы обнаружили, что в первых признаках содержалось гораздо больше делеций в сравнении с исходными массивами данных. Более того: в первых 10 признаках делеции обнаруживались в 2,9-6,8 раз чаще, чем в исходных массивах данных (с различиями между разными моделями). ОНП и инсерции в признаках высокого рейтинга встречались реже, чем в исходных массивах данных – за исключением массива НТО, для которого инсерции обнаруживались в первых 10 признаках чаще, чем в исходных массивах данных (в среднем для всех видов рака).

Предиктивная значимость гена в классификации видов рака существенно варьируется при мутациях разных типов

Некоторые гены фигурировали в первых 10 строчках рейтинга для множественных видов рака. MUC4 фигурировал в 10 первых строчках рейтинга для 16 из 19 видов рака, а TP53 обнаружился в 11 перечнях. Соответственно, эти гены могут играть важную роль в механизмах развития рака. Примечательно, что MUC4 является предиктивным для многих видов рака при условии наличия немолчащих или синонимичных мутаций. Данное открытие заставляет задать следующий фундаментальный вопрос: определяет ли тип мутации способность гена предсказывать вид рака? Или, возможно, различные альтерации в разных областях одного и того же гена вызывают схожую потерю или приобретение функции, что ведет к тому же исходу в плане развития рака?

Мы попытались ответить на этот вопрос, изучив первые 10 признаков каждой модели OVA с единственной мутацией (модели всех признаков мы исключили из анализа). Для каждого вида рака мы составили топ-10 генов, взятых из топ-10 признаков. Число появлений гена в топ-10 существенно меняется при различных мутациях. Например, вышеупомянутый ген MUC4 появляется во всех 19 списках при наличии немолчащих или синонимичных мутаций. Однако при мутации в НТО, интронах или фланкирующей области он теряет свою предиктивную значимость и вообще не появляется в списках.

Очевидно, что большинство генов обладают существенной предиктивной способностью в отношении множественных видов рака только при наличии мутации определенного типа. Так, MUC16 обладает высокой предиктивной значимостью в отношении 15 видов рака, но только при синонимичных мутациях. В целом, очевидно, что тип мутации действительно влияет на прогностический потенциал гена в диагностике рака. Тем не менее, можно также заметить, что у некоторых генов, включая AK2 или KTM2C, высокая предиктивная способность в отношении множественных видов рака зависит более, чем от одного типа мутаций. Таким образом, пусть даже не все мутации имеют один и тот же эффект, некоторые ведут к схожим последствиям.

Синонимичные, немолчащие и интронные мутации прямо пропорционально влияют на предиктивную способность гена в отношении классификации видов рака

Чтобы установить, приводят ли мутации определенных типов к схожим последствиям, мы изучили каждый вид рака по отдельности. Мы предположили, что если мутации двух разных типов оказывают схожее воздействие на ген, то предиктивная способность этого гена в отношении определенного вида рака будет примерно одинаковой вне зависимости от мутации. Соответственно, схожей должна быть и важность генов в обеих моделях. Если распространить данный вывод на все гены, рейтинги важности генов в обеих моделях должны быть прямо пропорциональны.

Для каждого вида рака мы произвели корреляцию Спирмена между каждой парой генов из рейтинга, полученного из пяти моделей с единственной мутацией. Затем мы вывели среднее значение коэффициента корреляции по всем видам рака. Результаты указывают на значительную корреляцию 0,4 между рейтингами генов в немолчащих и синонимичных моделях, на корреляцию 0,32 между списками немолчащих и интронных моделей и на корреляцию 0,3 между списками синонимичных и интронных моделей. Эти три корреляции получили p-значение ниже 8,5×10-9.

Между оставшимися парами моделей не обнаружилось высоких или значительных корреляций. Возможно, мы получили такие результаты в связи с тем, что разные типы мутаций обладают одним и тем же механизмом. Например, и синонимичные, и немолчащие мутации могут влиять на котрансляционный фолдинг, а синонимичные и интронные мутации – на сплайсинг. Соответственно, можно предположить, что эти мутации оказывают схожее влияние на экспрессию или функциональность генов.

Комбинирование молчащих и немолчащих признаков позволяет выявить те элементы Генной онтологии, которые не обнаруживаются при исключительно немолчащих признаках

Мы произвели анализ обогащения с тем, чтобы определить, связаны ли те гены, которые модели сочли важными, со специфическими биологическими функциями и процессами. Принадлежность этих генов к биологическим сигнальным путям могла бы подчеркнуть их вклад в развитие и прогрессирование болезни. Для поиска неизбыточных элементов Генной онтологии (элементы ГО), обогащенных при любом из 19 видов рака, мы использовали инструменты GOrilla и REVIGO. Чтобы найти элементы, мы использовали рейтинг генов в качестве входных данных для инструмента GOrilla. Различные типы мутаций существенно изменяют предиктивную значимость генов. Соответственно, использование рейтингов генов из разных моделей в качестве входных данных потенциально может пролить свет на различные биологические пути.

Мы обнаружили, что большинство элементов ГО, многократно обогащенных при различных видах рака, родственны связям ДНК-белок, связям белок-белок и фосфорилированию. Как и ожидалось, эти элементы ассоциируются с различными механизмами регуляции процесса генной экспрессии, включая транскрипцию (взаимодействие между транскрипционными факторами и РНК-полимеразой, фосфорилирование гистонов) и трансляцию (присоединение рибосом к последовательности ДНК).

Так как большая часть актуальных научных работ в основном охватывает немолчащие мутации, интересно проверить, обнаруживаются ли элементы ГО, выявленные в рейтингах генов всех признаков, в рейтингах генов, полученных из немолчащих моделей. Большинство элементов ГО, выявленных моделями всех признаков при различных видах рака, в немолчащих моделях обнаруживаются в меньшем количестве. Иными словами, добавление молчащих признаков к немолчащим признакам привело к тому, что рейтинг генов охватил более широкий спектр биологической значимости и в итоге привел к более эффективному выявлению элементов ГО.

С другой стороны, расширение призмы предполагает компромисс: 10 элементов ГО, признанных существенными в немолчащих моделях, отсутствовали в модели всех признаков (более того: восемь из них отсутствовали во всех остальных моделях, что делает эти признаки свойственными исключительно немолчащей модели). Среди таких элементов числились:

  • «Миграция эндотелиальных клеток», связанная с ангиогенезом (известное отличительное свойство рака);
  • «Негативная регуляция морфогенеза эпителия», наблюдающаяся при развитии карциномы;
  • «Регуляция канонического сигнального пути Wnt», доказанно имеющая явную связь с клеточным опухолегенезом.

Эти элементы считались существенными только в немолчащей модели; ни в одной другой модели не обнаружилось ни таких элементов, ни семантически схожих явлений. Несмотря на то, что модель всех признаков упустила эти 10 элементов, она обнаружила 21 другой элемент, признанный существенным немолчащей моделью. Это значит, что большая часть информации сохранилась. Более того: она выявила 90 других существенных элементов ГО, не обнаруженных немолчащей моделью. К ним относятся элементы, связанные с модификацией гистонов («связывание гистонов», «активность гистоновых метилтрансфераз», «активность гистоновых ацетилтрансфераз»), фосфорилированием («активность протеинфосфатазы трансмембранного рецептора», «активность протеинкиназы трансмембранного рецептора») и связыванием нуклеиновых кислот («связывание ATP», «связывание GDP», «действие активатора GTP-азы»). Известно, что эти биологические функции и процессы разными способами влияют на опухолегенез и что ни один из них (это относится и к элементам со схожими семантическими значениями) не обнаружился в немолчащей модели.

Мы также произвели анализ обогащения сигнальных путей, используя REACTOME, и, судя по результатам, все гены, имеющие высокий рейтинг в модели всех признаков, ассоциированы с множественными сигнальными путями, связанными с регуляцией повреждений ДНК. Обогащенными оказались такие сигнальные пути, как «контрольные точки клеточного цикла» (и, в частности, «контрольные точки повреждений ДНК G1/S», «контрольная точка повреждения ДНК G2/M» и «p53-зависимый ответ G1 на повреждение ДНК»), «репарация двухцепочечного разрыва ДНК», «SUMOилирование ответа на повреждение ДНК и репарационных белков» и «TP53 регулирует транскрипцию генов репарации ДНК». Эти сигнальные пути, равно как и семантически схожие пути, не обогащались в генах с высоким рейтингом в немолчащих моделях. Известно, что они тесно связаны с опухолегенезом. Полученные результаты иллюстрируют вклад молчащих мутаций в опухолегенез и подчеркивают необходимость учитывать их при изучении рака.

Исследуя молчащие модели с единственным признаком, мы обнаружили дополнительные элементы ГО, являющиеся уникальными для конкретной модели. Например, элемент «поли(A)-связывание» считался существенным только в модели НТО. Соответственно, можно предположить, что гены поли(A)-связывания подвергаются регуляции и способствуют эволюции рака через мутации в их 3’НТО, влияющей на регуляцию через изменения в поли(A)-хвосте. Поли(A)-хвост связан со стабильностью мРНК и регуляцией трансляции, а также с альтернативными процессами полиаденилирования, доказанно имеющими связь с опухолегенезом. В качестве примера элемента, уникального для конкретной модели, также можно привести «O-гликолизирование», считавшееся существенным только в синонимичной модели. O-гликаны – это олигосахариды; основной компонент муцинов. Муцины действуют как защитный слой эпителия; изменения в их O-гликанах связаны с опухолегенезом.

Интронная модель также выявила множество существенных элементов ГО для разных видов рака (80), из которых только три («клеточная адгезия», «биологическая адгезия» и «неотъемлемый компонент плазматической мембраны») обнаруживаются и в немолчащей модели. В модели всех признаков обнаружилась ровно половина элементов (40). В заключение, при исследовании рейтингов генов в моделях с единственным признаком и в моделях с признаками нескольких типов нам удалось выявить одну особенность. Модель всех признаков обеспечивает более широкий обзор биологических путей, но при этом упускает элементы, являющиеся высокоспецифичными для мутации определенного типа. Вместе с тем данный анализ явно указывает на то, что поиска биологической значимости только через изучение немолчащих мутаций недостаточно.

Необходимо учитывать неодинаковое число признаков в обеих моделях; модели всех признаков имеют почти в семь раз больше признаков, чем немолчащие модели. Так как рейтинг генов выводится из рейтинга признаков, он оказывает определенное влияние на результаты обогащения. Тем не менее, это не единственная детерминанта; если бы молчащие признаки были бы неважны для модели, добавление таких признаков (даже множества) не привело бы к таким различиям в результатах обогащения. Так как рейтинг отдельного гена выводится из рейтинга его самого важного признака, неважные молчащие признаки оказали бы на рейтинг генов незначительное влияние. Соответственно, модели всех признаков и немолчащие модели имели бы схожие рейтинги генов, и мы бы получили схожие результаты обогащения. Факт того, что гораздо больше элементов ГО оказались обогащенными именно в моделях всех признаков, вновь подчеркивает важность молчащих признаков и необходимость изучения полной картины.

Все модели молчащих признаков превзошли нулевую модель в прогнозировании выживаемости на срок более 10 лет после первичной постановки диагноза

Мы провели данный анализ с тем, чтобы проверить, можно ли оценить потенциальную выживаемость пациента только по его молчащим мутациям. Мы также поставили цель сравнить расчеты по моделям молчащих признаков с расчетами по немолчащим моделям и моделям всех признаков. Как и при решении задачи по классификации видов рака, мы не использовали никакой дополнительной информации, включая возраст, пол, расовую принадлежность и историю терапии пациентов. В данный анализ мы включили пациентов со всеми 33 видами рака и использовали алгоритм «Random Survival Forest» (RSF). В связи с высокими вычислительными требованиями алгоритма из каждого из шести первичных массивов данных мы выбрали только одно подмножество признаков. Модели были сконструированы таким образом, чтобы прогнозировать потенциальную выживаемость пациента в любое время после первичной постановки диагноза. Затем мы использовали модели для оценки потенциальной выживаемости пациентов в 10 разных моментах времени. Мы произвели расчеты с применением индекса площади под кривой (AUC) и представили результаты в следующем разделе.

Все модели молчащих признаков превзошли нулевую модель более, чем на 10 лет после первичной постановки диагноза. Кроме того, модель всех признаков получила наивысший индекс AUC на срок более девяти лет (3500 дней) после выявления рака. Из этих данных видно, что добавление молчащих признаков к немолчащим признакам дает больший эффект в прогнозировании выживаемости по сравнению с применением исключительно немолчащих признаков.

Молчащие признаки составляют 30% от 10 наиболее предиктивных признаков при оценке выживаемости

Изучая рейтинг важности признаков, выведенный моделью всех признаков при оценке выживаемости, мы обнаружили, что молчащие признаки составляют более половины от 100 верхних строчек рейтинга и треть от 10 верхних строчек рейтинга. Необходимо помнить о том, что по техническим причинам все пациенты составляют единую когорту для оценки выживаемости (модель не учитывает вид рака каждого пациента – только его геномные характеристики и жизненный статус при последнем обследовании). Если провести отдельный анализ выживаемости для каждого вида рака, как мы сделали при решении задачи по классификации, количество молчащих мутаций высокого рейтинга, скорее всего, будет существенно разниться между видами рака, как и в предыдущей задаче.

Тем не менее, факт того, что три из 10 признаков, обладающих наибольшей прогностической значимостью в отношении выживаемости целой когорты, являются молчащими (даже несмотря на то, что в модели использовались тысячи немолчащих признаков), служит еще одним показателем мощной предиктивной способности молчащих мутаций.

Выводы

Существует предположение о том, что немолчащие мутации способны влиять на опухолегенез и состояние раковых клеток через изменения в регуляции генной экспрессии. Тем не менее, насколько нам известно, в данном исследовании представлена первая количественная оценка предиктивной значимости молчащих мутаций в классификации рака и прогнозировании его развития в сравнении с немолчащими мутациями.

Результаты указывают на предиктивную способность молчащих мутаций выполнять задачи как по классификации, так и по оценке выживаемости. Мы отдельно демонстрируем, что для некоторых видов рака результаты молчащих мутаций сравнимы с результатами немолчащих мутаций. Более того: комбинирование немолчащих и молчащих мутаций позволило добиться наилучших результатов классификации для 68% видов рака. При использовании одинакового количества признаков комбинация немолчащих и молчащих признаков по-прежнему превосходила исключительно немолчащие признаки при изучении 63% видов рака.

Несмотря на то, что оценка выживаемости имеет не настолько всесторонний и точный характер, как задача по классификации (так как пациенты представляли собой единую когорту), из результатов мы сделали аналогичные выводы: все модели молчащих признаков превзошли нулевую модель более, чем на 10 лет после первичной постановки диагноза. Что касается комбинирования молчащих и немолчащих признаков, оно дало наилучший расчет выживаемости на срок более 9 лет. Кроме того, молчащие признаки заняли высокие места в рейтингах обеих задач и превзошли тысячи немолчащих признаков. Учитывая, что многочисленные молчащие признаки (влияющие на регуляцию генной экспрессии) обладают высокой предиктивностью в моделях, а функции белков достаточно эффективно выделяют мутации, возможно, что некоторые из наиболее предиктивных немолчащих мутаций являются таковыми в связи с их воздействием на регуляцию генной экспрессии, а не на функциональность белков. Недавнее исследование, в котором обнаружились сходства между рекуррентностью и распределением синонимичных и миссенс-мутаций, поддерживает данное предположение.

Предиктивная значимость молчащих мутаций существенно варьируется между различными видами рака. На основании этого можно предположить, что изменения в функциональности генов, вызванные в основном немолчащими мутациями, в большей степени влияют на определенные виды рака, в то время как другие виды рака более подвержены влиянию изменений в уровнях генной экспрессии, вызванных и молчащими, и немолчащими мутациями. Важность разных типов мутаций варьируется и при исследовании специфических генов и сигнальных путей; предиктивная значимость гена существенно меняется в зависимости от типа мутации. Из этого следует, что мутация, обеспечивающая высокую предиктивность и вызывающая изменения в функциональности или регуляции гена, оптимальна для хорошего состояния раковой опухоли.

При изучении рейтингов признаков, составленных разными моделями, можно заметить, что признаки низкого разрешения обычно занимают верхние строчки в сравнении с признаками высокого разрешения. Это значит, что число мутаций в целой функциональной области гена – это более надежный прогностический фактор по сравнению с одиночной специфической мутацией. Данный феномен наблюдается в отношении как молчащих, так и немолчащих признаков. Всестороннее изучение специфического эффекта всех этих мутаций может стать темой новых исследований. Здесь же мы представляем несколько исходных точек.

Изучая немногочисленные молчащие признаки высокого разрешения, занявшие верхние строчки в рейтингах, мы обнаружили, что они существенно влияют на уровни экспрессии мРНК или сплайсинг либо имеют другие регуляторные эффекты. Тем не менее, при изучении молчащих признаков низкого разрешения, занявших верхние строчки в рейтингах, мы обнаружили, что некоторые из них содержат геномные позиции, которые в случае мутации предположительно вызывают нарушение регуляции. Например, количество интронных мутаций в гене TP53 оказалось второй по значимости важной характеристикой в модели всех признаков при выявлении LUSC.

Мы обнаружили мутацию ОНП в интронной области 17: 7673610: T -> C, аннулирующую сайт сплайсинга; сама по себе эта мутация не попала в верхние строчки – видимо, в связи с нечастой встречаемостью (обнаруживается только у 0,7% пациентов с LUSC). В недавнем исследовании эксперты продемонстрировали, что возможные драйверные мутации могут опускаться в случае, если они встречаются относительно редко – даже если при этом они оказывают значительный эффект. Ген TP53 – это, вероятно, самый известный опухолевый супрессор, и аннулирование одного из его сайтов сплайсинга может повлиять на опухолегенез. Число мутаций в 3’НТО гена SRGAP3 оказалось четвертым из самых важных признаков в модели всех признаков при диагностике SARC.

Мы обнаружили две делеции: 3: 8985094–8985095: AT и 3: 8985094–8985097: ATAT, и обе приводят к формированию нового сайта связывания микроРНК. Первая мутация встречается гораздо чаще второй (присутствуют у 23,1% и 1,2% пациентов с SARC соответственно) и согласно модели является наиболее важной мутацией во всем гене SRGAP3. Вторая мутация сама по себе находится гораздо ниже в рейтинге – что и неудивительно, учитывая, насколько реже она встречается. Ген SRGAP3 также считается опухолевым супрессором, и добавление нового сайта связывания микроРНК может влиять на опухолегенез. Число интронных мутаций в гене EGFR заняло четвертое место среди самых важных признаков в модели всех признаков при диагностике GBM.

Мы обнаружили инсерцию в интронной области: 7: 55020559–55020560: ACACACAC. Эта инсерция приводит к небольшому, но значительному снижению уровней экспрессии мРНК (0,7%). Данная мутация также встречается нечасто; ее выявляют только у 0,7% пациентов с глиобластомой. Вышеописанные мутации влияют на различные аспекты регуляции известных опухолевых супрессоров (TP53, SRGAP3) и онкогенов (EGFR) и потому могут воздействовать на опухолегенез.

В целом, может существовать еще множество нетипичных молчащих мутаций с регуляторными эффектами, упускаемых из внимания в связи с недостаточной статистической мощностью. Мы ожидаем, что по мере накопления геномных данных и совершенствования вычислительных методов исследователи будут идентифицировать новые нетипичные, молчащие мутации, влияющие на регуляцию и функцию. Что касается немолчащих признаков, занявших верхние строчки в рейтинге, мы также не обнаружили признаков высокого разрешения, напрямую воздействующих на регуляцию генной экспрессии. На верхних строчках рейтинга мы обнаружили только две мутации низкого разрешения, способные формировать и отзывать сайты сплайсинга в генах KRAS и IDH1.

Изучая результаты представленного исследования, необходимо помнить о некоторых внутренних погрешностях данных. Так, немолчащие мутации от природы встречаются примерно в 20 раз чаще синонимичных мутаций. Соответственно, даже если эффект одиночной мутации одинаков для обоих типов, немолчащие мутации ожидаемо оказывают большее влияние. Еще одна погрешность происходит из источника данных; геномные данные, использованные в представленном исследовании, получены с применением WES, предрасполагающего к выявлению экзонных мутаций. Полное секвенирование экзома охватывает кодирующие участки генома, игнорируя большинство некодирующих участков внутри и за пределами генов.

Более того: при WES из внимания упускается 98% генома; в результате приходится иметь дело с ограниченной призмой, сильно предрасположенной к экзонным мутациям. В настоящее время предпринимаются активные попытки получить данные целого генома; Международный консорциум ракового генома (ICGC) и Атлас ракового генома (TCGA) запустили совместный проект «Пан-раковый анализ целых геномов» (PCAWG) и предлагают возможность метаанализа с включением молчащих мутаций. Несмотря на то, что на данный момент проект содержит гораздо меньший объем данных и, соответственно, обладает гораздо меньшей статистической мощностью в сравнении с базами данных WES, он несомненно превратится в существенное достижение на пути к расшифровке роли молчащих мутаций в развитии рака.

Разное количество мутаций в разных генах служит дополнительным источником погрешностей в наших анализах: важность гена для моделей предопределяется в том числе тем, сколько мутаций содержится в TCGA. В частности, существует средняя корреляция Спирмена 0,72 между количеством мутаций гена в TCGA и его рейтингом при анализе 19 видов рака. Тем не менее, даже несмотря на существенность корреляции, она также указывает на то, что 52% вариации в рейтингах генов невозможно объяснить количеством мутаций на ген в TCGA. Более того: некоторые гены, включая HRAS, YOD1, VHL и CEBPA, фигурируют среди наиболее важных генов для нескольких видов рака даже несмотря на низкое число мутаций в TCGA по сравнению с другими генами (в диапазоне от 4го до 16го процентиля). Мы полагаем, что без этих погрешностей значимость молчащих мутаций в диагностике рака и прогнозировании выживаемости будет даже выше, чем представленные здесь результаты.

Наконец, в данном исследовании представлен обширный статистический анализ предиктивных способностей молчащих и немолчащих мутаций различных типов. Результаты свидетельствуют о том, что модели на основе молчащих мутаций способны принести большую пользу на практике – например, при анализе жидких биопсийных образцов с целью диагностики рака или оценки прогноза. Тем не менее, необходимо провести большую работу по расширению и углублению знаний о молчащих мутациях и их влиянии на развитие рака. Например, специфические молчащие мутации, выбранные в качестве предиктивных нашими моделями, необходимо исследовать и в дальнейшем для того, чтобы подтвердить их влияние на конкретные регуляторные участки и механизмы.

Для подтверждения сделанных нами выводов необходимо использовать инновационные базы данных, содержащие информацию о молчащих мутациях (например, PCAWG и SynMICdb). Драйверные молчащие мутации нужно отличать от пассажирских молчащих мутаций через оценку их воздействия на экспрессию белков и расчет времени их возникновения. Чтобы оценить полную диагностическую значимость молчащих мутаций, следует классифицировать данные, полученные как от здоровых людей, так и от онкобольных. Классификацию также необходимо произвести с применением геномной информации, полученной из образцов крови, с тем, чтобы проверить, обладают ли молчащие мутации аналогичной диагностической способностью в таких обстоятельствах.

После получения достаточного объема данных необходимо повторно провести анализ выживаемости, по отдельности для каждого вида рака. Такой подход усовершенствует расчет выживаемости и поможет лучше изучить влияние молчащих и немолчащих мутаций, связанных с вероятностью выживания. Наконец, следует подтвердить некоторые из мутаций экспериментальным путем. Все эти предложения по научной работе образуют лишь вершину айсберга в области, получившей недостаточное освещение и полной нераскрытого клинического потенциала.

Другие актуальные исследования:

Дата публикации: 04.09.2021
Работаем без выходных: 24/7
Обслуживание на трех языках: иврит, русский и английский
Введите ваши данные и врач клиники перезвонит вам в течение часа
Whatsapp
с врачом клиники 24/7
×
×
×
×