В базах данных найдено множество ошибок секвенирования.

posted on 08.04.2017 12:10:00

Новый алгоритм, разработанный сотрудниками компании New England Biolabs (NEB) выявил в публичных геномных базах данных множество ошибок, внесенных на стадии подготовки проб к секвенированию. При этом алгоритм позволяет отличить такие ошибки от соматических вариантов.

Давно было известно, что спонтанные мутации ДНК могут возникать в образцах, хранившихся в формалине и парафине, или полученных из древнего материала. Но выяснилось, что любая ДНК, подвергавшаяся сонификации – разбиению её на фрагменты при помощи ультразвука – может повреждаться из-за оксидативного стресса. Возникающие в результате этого ошибки редки и могут остаться незамеченными в некоторых применениях, но при изучении, например, соматического мутагенеза в раковых образцах они дают множество ложноположительных результатов.

Оксидативный стресс при сонификации превращает гуанин в дигидро-8-оксогуанин, который при секвенировании «маскируется» под тимин. При скрининге данных такие события выявляются как замены (mismatch) — на комплементарных цепях расположены «несбалансированные», то есть несоответствующие друг другу тимин и цитозин. Алгоритм находит такие события и подсчитывает уровень несбалансированности (Global Imbalance Value, GIV), показывающий, насколько были повреждены образцы при подготовке к секвенированию.

Оксидативный стресс при сонификации превращает гуанин в дигидро-8-оксогуанин, который при секвенировании «маскируется» под тимин.

При применении алгоритма к базам 1000 Геномов и The Cancer Genome Atlas, в обоих были выявлены датасеты со значительным уровнем повреждения ДНК – 41% и 73% датасетов соответственно. Таким образом, ученые предлагают использовать данный алгоритм и значение Global Imbalance Value в качестве еще одного шага при контроле качества данных.

0 ( 0 reviews)

Attachments

DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification.pdf 08.04.2017 12:17:16

Новости

Новости

В базах данных найдено множество ошибок секвенирования.

Attachments

Related

Post a Comment