Новый алгоритм, разработанный сотрудниками компании New England Biolabs (NEB) выявил в публичных геномных базах данных множество ошибок, внесенных на стадии подготовки проб к секвенированию. При этом алгоритм позволяет отличить такие ошибки от соматических вариантов.
Давно было известно, что спонтанные мутации ДНК могут возникать в образцах, хранившихся в формалине и парафине, или полученных из древнего материала. Но выяснилось, что любая ДНК, подвергавшаяся сонификации – разбиению её на фрагменты при помощи ультразвука – может повреждаться из-за оксидативного стресса. Возникающие в результате этого ошибки редки и могут остаться незамеченными в некоторых применениях, но при изучении, например, соматического мутагенеза в раковых образцах они дают множество ложноположительных результатов.
Оксидативный стресс при сонификации превращает гуанин в дигидро-8-оксогуанин, который при секвенировании «маскируется» под тимин. При скрининге данных такие события выявляются как замены (mismatch) — на комплементарных цепях расположены «несбалансированные», то есть несоответствующие друг другу тимин и цитозин. Алгоритм находит такие события и подсчитывает уровень несбалансированности (Global Imbalance Value, GIV), показывающий, насколько были повреждены образцы при подготовке к секвенированию.
|
Оксидативный стресс при сонификации превращает гуанин в дигидро-8-оксогуанин, который при секвенировании «маскируется» под тимин. |
При применении алгоритма к базам 1000 Геномов и The Cancer Genome Atlas, в обоих были выявлены датасеты со значительным уровнем повреждения ДНК – 41% и 73% датасетов соответственно. Таким образом, ученые предлагают использовать данный алгоритм и значение Global Imbalance Value в качестве еще одного шага при контроле качества данных.